用好OnionScan,自己动手制作暗网爬虫

喜大普奔!OnionScan0.2终于发布啦!在新版OnionScan中,最引人注目的一个新功能就是“custom crawls”(自定义爬取)。我们将会通过这篇文章来教会大家如何去使用这个强大的功能。【 OnionScan 0.2下载地址

可能对暗网比较了解的同学都知道OnionScan是个什么东西吧?OnionScan是一款非常棒的工具,你可以用它来扫描暗网中的隐藏服务,并收集一些潜在的泄漏数据。除此之外,OnionScan也可以帮助你搜索出各种匿名服务的标识,例如比特币钱包地址、PGP密钥、以及电子邮件地址等等。

但是,暗网中的很多服务数据都是以非标准的数据格式发布的,不同的服务很可能使用的是不同的数据格式,这也就使得我们很难用软件工具来对这些数据进行自动化处理。

不过别担心,OnionScan可以帮助我们解决这个难题。OnionScan允许我们自定义各个网站之间的关系,然后我们可以将这些关系导入至OnionScan的关联引擎(Correlation
Engine)之中。接下来,系统会像处理其他标识符那样来帮助我们对这些关系进行关联和分类。

接下来,我们以暗网市场Hansa来作为讲解实例。当我们在收集该市场中的数据时,我们首先要收集的往往是市场中处于在售状态的商品名称和商品类别,有时我们可能还需要收集这些商品的供应商信息。实际上,我们可以直接访问产品的/listing页面来获取所有的这些信息。

但是,我们现在要自己动手制作一个暗网爬虫。我们将使用这个爬虫来爬取并导出我们所需的数据,然后再对这些数据进行处理,最后再将其转换成我们可以进行自动化分析的数据格式。在OnionScan0.2的帮助下,我们只需要定义一个简单的配置文件就可以轻松实现这些操作了。相关代码如下所示:


  1. {  
  2. "onion":"hansamkt2rr6nfg3.onion",  
  3. "base":"/",  
  4. "exclude":["/forums","/support","/login","/register","?showFilters=true","/img","/inc", "/css", "/link", "/dashboard","/feedback", "/terms", "/message"], 
  5.  "relationships":[{"name":"Listing", 
  6.  "triggeridentifierregex":"/listing/([0-9]*)/",  
  7. "extrarelationships":[  
  8. {  
  9. "name":"Title",  
  10. "type":"listing-title",  
  11. "regex":"  
  12. (.*)  
  13. " }, { "name":"Vendor", "type":"username", "regex":" " }, { "name":"Price", "type":"price", "regex":" (USD[^<]*) " }, { "name":"Category", "type":"category", "regex":" 
  14.  ([^<]*)  
  15. ", "rollup": true } ] } ] } 

上面这段代码可能看起来非常的复杂,不过别担心,接下来我们会给大家一一进行讲解。

代码开头的“onion”参数定义的是我们所要扫描的暗网服务(”onion”:”hansamkt2rr6nfg3.onion”)。“base”参数定义的是我们要从网站的哪个路径开始执行扫描,在这里我们准备从网站的根目录开始扫描(”base”:”/”)。与普通网站一样,大多数暗网服务同样只在网站子目录中才会保存有效数据,例如刚才的“listing”目录。在这种情况下,我们就可以使用“base”参数来告诉OnionScan从网站的哪一部分开始执行扫描,这样可以为我们节省大量的时间。

“exclude”参数可以让OnionScan排除某些类型的扫描对象,例如“/forums”、“/support”、“/login”、以及“/register”。通常情况下,这些链接我们最好不要去碰,因为它们有可能会进行某些我们不希望发生的行为。

接下来就是“relationships”参数了,这个参数中定义的逻辑才是这个爬虫最核心的部分。

我们的逻辑关系主要是由“name”和“triggeridentifierregex”这两个参数定义的。其中的正则表达式主要应用于目标网站的URL地址,当正则表达式匹配到关系中的剩余规则时,就会触发相应的操作。在这个例子中,我们在OnionScan中定义了正则表达式“/listing/([0-9]*)/”,它将会触发URL地址中的Listing关系。需要注意的是,OnionScan还会根据URL地址中的“([0-9]*)”来识别资源之间的关系。

每一个关系都有一个“extrarelationships”参数,这个参数中定义的关系是OnionScan在进行搜索操作时需要用到的。

比如说,在我们的配置文件中,我们定义了四个额外的关系,即“Title”、“Vendor”、
“Price”和“Category”。每一个额外定义的关系都需要定义“name”和“type”参数,OnionScan的关联引擎将需要使用到这部分数据。除此之外,我们还要在关系中定义一个正则表达式,即“regex”参数,我们可以通过这个正则表达式来提取目标页面中的数据关系。

在Hansa市场这个例子中可以看到,我们可以通过正则表达式“”来从产品的/listing页面中提取出厂商信息。类似地,我们也可以通过这种方法提取出产品的标题、价格、以及分类目录。

“rollup”参数是OnionScan中的一个指令,这个指令可以让OnionScan对我们所搜索到的产品分类数量进行数据统计,并以可视化的形式输出统计结果。

现在,我们已经通过配置文件来告诉OnionScan应该从Hansa市场中提取哪些数据了,但是OnionScan应该如何使用这个配置文件呢?

接下来,先将我们刚才定义好的配置文件放到“service-configs”文件夹中,然后通过下列命令来让OnionScan对市场执行扫描操作:


  1. ./onionscan -scans web --depth 1 --crawlconfigdir./service-configs/ --webport 8080 --verbose hansamkt2rr6nfg3.onion 

搜索结果如下图所示:

从上面这张图片中可以看到,我们只需要定义一个简单的配置文件,OnionScan就可以帮我们完成剩下的操作。我们之所以可以获取到这张统计表格,是因为我们之前将“rollup”参数设为了“true”,所以OnionScan才会给我们提供这样一份可视化的统计数据。

作者:佚名

来源:51CTO

时间: 2024-09-22 13:59:52

用好OnionScan,自己动手制作暗网爬虫的相关文章

搜索引擎决战“暗网”百度搜索开放平台初露锋芒

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 几乎任何有抱负的通用搜索引擎都有一个共同的梦想:整合人类所有信息,并让大家用最便捷的方式各取所需. 对此,百度说:"让人们最便捷地获取信息,找到所求";谷歌说:"整合全球信息,使人人皆可访问并从中受益". 这两者表达的实际上是同一个愿景. 然而,这注定是一项不可能完成的任务.据科学家估测,人类信息大概只

85%的暗网已经关闭,这是为什么?

本文讲的是85%的暗网已经关闭,这是为什么?,自从2月份一匿名者组织入侵暗网托管商 Freedom Hosting II(FH II)的服务器,导致其托管的所有暗网网站全部下线后,暗网服务开始大幅缩水.根据OnionScan 的最新报告显示如今的暗网服务只剩下 4400 左右. 根据先前Deep Light 公司于2016 年 4 月公布的报告称,暗网服务总量还在 3 万左右.对比两次统计的数据发现,约85% 的暗网服务已经消失. 暗网托管服务商 Freedom Hosting II被攻后意想不

暗网买银行卡纪实:盗刷无门槛

本文讲的是暗网买银行卡纪实:盗刷无门槛,虽然都出正月了,但是我还是想跟大家讲个故事,讲讲我春节前夕试图用盗刷银行卡的方式来买票回家.希望让大家能认识到保护好银行卡信息的重要性. 起因:被贱人逼上暗网 "TMD,两只产品贱人居然在背后议论我没钱回家. 呵呵,我就笑了.究竟是谁走漏了风声!"  刚毕业的运营宝宝容易吗,还没攒出什么钱,就要过年了. 别人过年回家几千几万的花. 我就厉害了,不回家,没钱! 本来都打算自己在公司过年了,但是实在咽不下这口恶气.忽然想到,一个黑客哥们跟我说暗网里面

暗网买信用卡纪实:亲测盗刷无门槛

     文作者为振宇,首发于微信公众号"一本黑"(ID:darkinsider),雷锋网及雷锋网旗下公众号"雷锋网(ID:leiphone-sz)""宅客频道(ID:letshome)"已获授权转载.该文原标题为<暗网买银行卡纪实:盗刷无门槛> 雷锋网(公众号:雷锋网)声明:该文所展现的技术均为警醒读者之用,并无教唆犯罪的动机. -- 虽然都快出正月了,但是我还是想跟大家讲个故事,讲讲我春节前夕试图用盗刷银行卡的方式来买票回家.希望

揭开暗网服务的神秘面纱(上)

各位同学们大家好,我将会在这一系列的文章中跟大家讨论有关匿名系统安全方面内容,包括暗网的运行机制以及其中的各种匿名服务.以下是我在2016年HackFest大会(2016年11月5日)上所做的演讲内容,如果有不对的地方欢迎大家批评指正. 写在前面的话 我的名字叫Sarah,我是一名独立的匿名隐私研究人员.在此之前,我曾经是一名任职于亚马逊公司的安全工程师,当时我的工作就是帮助公司防止攻击者通过机器学习系统来对我们客户进行网络欺诈活动.在加入亚马逊之前,我还是英国情报机构政府通信总部(GCHQ)一

暗网:知道你的一点信息足矣

本文讲的是 暗网:知道你的一点信息足矣,巴黎恐怖袭击和其后的搜捕事件告诉了我们收集情报的重要性.由于法国执法部门从犯罪现场遗留的一部手机中提取了关键情报,才能够确定恐怖袭击主使的藏身地,并挫败紧随其后的其它恐怖行为. 在这场悲剧的混乱中,证据数量成千上万,勤奋收集情报.注意大大小小的细节,最终拯救了生命.如果没有他们优秀的情报工作,你能想象会发生什么吗?由于高预算.政府赞助,全球国家雇佣的网络和科技奇才们才能够利用情报获取这次大胜利. 只要一个小细节就能挫败恐怖分子的后续袭击,反过来也一样.网络

暗网黑市交易调查:最爱比特币等虚拟加密货币

近日,国际执法部门在一起全球网络犯罪联合调查中,打掉了名为"阿尔法湾"和"汉萨"的两个被称为"暗网"的非法网上黑市,每月在上面交易的毒品.淫秽物品及武器价值数千万美元.共有来自美国.荷兰.泰国.加拿大.英国.法国等国家的数十个政府监管部门参与了打击活动. 美国司法部长塞申斯事后在华盛顿举办的新闻发布会上表示:"这可能是今年最重要的刑事调查之一,史上规模最大的暗网市场被打掉了.这些犯罪组织认为,它们可以通过暗网不受惩罚地实施犯罪.&quo

从暗网罪犯那盗取比特币,这个黑客玩得 666 ,然后他就悲剧了

   [图片来源:bleeping computer] "黑吃黑"是一种怎样的体验? 雷锋网觉得,黑客 Michael Richo 要是回答这个问题,一定能获得很多赞票. 这个小伙子玩得不要太溜:他从暗网的罪犯账户中盗取他们的比特币,就算这些"失主"吃了亏,也有苦说不出,总不能去报警是不是? 雷锋网(公众号:雷锋网)宅客频道(欢迎关注,微信ID:letshome)编辑也很好奇,这个小伙是怎么操作的? 先来简单了解一下. 原来,一旦他获得了用户凭证的访问权限,登录访问

Palo Alto Networks:网络罪犯的交易市场—暗网市场

我们在地下网络犯罪系列<Cybercrime Underground>的第一.二和三部分已讨论了一些有关网络犯罪的概念和定义,以及网络犯罪分子如何在网络犯罪论坛中买卖恶意工具和服务.这个最新的报告将带大家认识暗网市场(darknet markets),一个网络犯罪分子买卖数据的地方,而那些数据可能是通过入侵受害者计算机系统或从庞大的数据库中窃取的. 本文重点阐述了什么是暗网市场.其常见的支付模式.所买卖的数据类型及通常价位.本文的目的并非提供暗网市场销售的产品服务的详尽列表,而是阐明网络犯罪分