安全圈大佬博客爬虫计划

看到Freebuf上那篇吃鸡分析的文章,数据分析还是强啊。很早的时候我就有QQ空间爬虫生成关系图的想法了,也实践写好了程序,如果多加些大佬,说不定可以直接从QQ空间爬虫,但是我加的人比较少,而且很多是自己的朋友,再加上深层次爬虫的时候很多大佬的QQ空间是关闭的,所以就不选择这个了。

博客爬虫

从另一个角度出发,从大佬们的博客入手。简述一下我的思路。

1. 收集链接

以友情链接的方式深度爬取网站,通过判断一些关键词ctf|rce|xss|sql等等来判断是否属于安全圈大佬。这个阶段用于采集足够多的数据样本,采集数据时也做好数据来源数据去向的统计,方便做关系图。

2. 深层次爬虫,数据获取

这个阶段爬取每个博客的深层次链接(广度优先),假定设定阈值为500层。将相关数据保存下来,以便后面分析。

3. 数据分析阶段

虽然不知道这些数据有何用处,但总之就很厉害就行了~

  1. 数据源加入W12Scan扫描器,测试常规漏洞,统计各种漏洞出现比例
  2. 统计网站cms比率,网站使用技术(wappalyzer)比率。
  3. 统计博客建站类型,github,自建,还是cnblog之类
  4. 博客地理位置统计
  5. 博客IP端口开放,服务类型统计
  6. 收藏email,qq,电话等联系方式[正则匹配],找到出现次数最高的。
  7. 最常谈论的组件名称(采用seebug组件库进行分词)
  8. 博客发帖时间(哪些时间段发帖数量最大)时间频率统计
  9. 统计大佬昵称,统计出现次数最多的大佬昵称。

4. 其他

除了数据分析,还有很多可以玩的地方。

  • 博客关系力拓图,找寻博客之间的联系(朋友之间相隔几层?)
  • 关键词监控博客新的内容
  • 专门做一个大佬博客关系网站,聚合特定字段文章,定时更新任务数据。

嘴强王者

这些在技术上的实现都不困难,难的是没有时间做呀。所以记录此文,如果有其他人看到,欢迎有兴趣的一同完成~

相关推荐

发表评论

路人甲

网友评论(2)

厉害,支持一下!
CHINA 5年前 (2019-05-19) 回复
话说 你这个有点像蠕虫。。。找到一个起点就一个接着一个爬,关键词判断你是通过什么来获取呢?我想到的有: tag?还是每个博客文章都爬一遍?sitemap里url提取?百度/Google/bing/ site:xxx.com ctf|rce|xss|sql? 评论也抓取的话。。。工程量好大
QQ账号错误 5年前 (2019-04-27) 回复