这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》

  你听过黑话吗?

有!

天龙盖地虎

宝塔镇河妖

不不不,这句黑话已经OUT很久了。

----以下是一组分割线,上下没有关联----

今天(7月26日),蓝莲花(Blue-Lotus)战队组建人之一的清华教授段海新介绍了一些网络黑产的黑话更让人大开眼界(蓝莲花有多牛,你可以搜索一下)。

下面进入自我测试时间,如果这些黑话你都能看懂,也许你是黑产研究学八级,要么就是经历很丰富:

菠菜

平马二中一

丁香五月天

咕噜咕噜出肉

段海新腼腆地介绍了一下第一个词,“菠菜”就是“博彩”的意思,后面三个他居然没解释。

好奇的雷锋网随便搜索了其中一个关键词,显示出如下的搜索结果,吓得我赶紧捂上了眼睛:

装作看不懂的样子,继续听段教授讲故事。

疯狂SEO的黑产网站

网络黑产,无奇不有,黄赌毒尤甚。

这些黄赌毒网站为了在搜索界面抢占更有利的位置,往往会对一些权重较高的网站进行劫持,比如以edu.cn或gov.cn结尾的网站。

你只是想打开一个高校的官网或一个政府网站,一不小心就进入了不可言说的世界。

你只能感叹一句:黑产推广真是丧心病狂。

然而,这并不算什么。黄赌毒和诈骗类网站为了推广自己,还会借助一种技术:蜘蛛池。

蜘蛛池就是一堆由垃圾域名组成的站群,在每个站点下都生成海量页面(抓一堆文本内容相互组合),页面模板与正常网页没多大区别。给那些未收录的页面,在短时间内提供大量的真实的外链,入口曝光多了,被抓取几率就大,收录率自然也就上去了,又因为是外链,所以在排名上也有一定的正向加分。

如果你再稍微了解一点搜索技术,说白了,就是人为制造了一张不断变大的网,把蜘蛛困在里面,让它不断的爬行网内的页面。

总而言之,就是网络黑产不断地用各种手段推广自己,争夺注意力。

噢!黑产有行业术语

为了打掉黑产网站,就要研究黑产网站的 SEO!也因此,段海新发现了伴随黑产网站出现的是“黑产词”:这些网站总有一些关键词像“标签”一样地贴在自己身上。

正经的说法是:

“黑产词”是伴随黑产出现的产品同义词及违法产品本身的关键词的统称。非法商贩和买家通过协定新的词汇表示一种产品,以此躲避监管。

这些隐蔽的“黑产词”通常会扭曲常用词含义,导致“外行人”无法理解其背后的含义,上面举例的一些即是“黑产词”。

这里有个小插曲值得一提。

清华大学有一个优雅的小院名为“怡春院”,曾作为校机关的办公场所,但是,扭曲的黑产居然把这个词变成了……额……通过搜索引擎查询“怡春院”这歌关键词,国内外主流搜索引擎搜出来的都是成人社区(Google除外)。

 他推测,也许这些搜索引擎比较真实地反映了用户搜索的需求。

好消息:这里有本“黑话大全”

雷锋网了解到,被推广的“黑产词“可以通过自动化方式检测出来。人们在查询某个商品时,可能会反复触及到多个类似“黑产词”的网站页面,这些页面有可能包含恶意或欺诈内容。

好消息是,利用搜索引擎查询相关页面,并结合相关搜索扩展查询结果,最后采用算法可将结果融合判定是否为黑产词,段海新和他的研究团队做的就是这件事情(也许并不是为了报“怡春院”之仇)。

如何通过自动化手段检测一些新的黑产黑话?

先来了解一下黑产网站是怎么推广的。段海新介绍,比如,毒品商家找到做非法 SEO 引擎优化的推广商,根据产品和关键词进行优化,搜索引擎的爬虫自动到网站上抓取内容,用户搜索时,就有可能被指向这个毒品网站。

因此,段海新的研究团队想出的对抗办法是:

1.输入两部分数据,一部分是搜索引擎厂商提供的恶意URL列表,另一部分是从蜘蛛池推广网站中抓取的200多万页面,在这些页面中提取的关键词。

2.过滤掉这些词中的合法词汇(白词),然后再到搜索引擎中验证一次,是否触发了搜索引擎的报警。

3.利用搜索引擎厂商的相关搜索进行扩展。

最终,就能找到“正确的黑话”。

看上去,三个步骤很简单,但是隐藏了三个复杂的问题——

1.如何提取关键词?

黑产关键词可能会出现在黑产网站的任何一个页面,在尝试很多区域后,段海新发现,明文可点击区域的效果最明显。

你要问了,如果黑产把黑词放在别的地方是否可以逃避检测?

并没有那么容易,如果黑产想逃避检测,带来的副作用是, 搜索引擎的爬虫也无法搜索到这些关键词。

2.如何过滤白词?

用自然语言理解的方法非常困难,但段海新的团队发现了一个简单的方法:很多词都是从新闻热点中抓取过来,而这些新闻标题比较长,所以我们就把超过一定长度的新闻标题过滤掉。

3.如何判断是白词还是黑词?

比如,“清华”是一个白词,所以搜索结果比较干净,而且搜索引擎已经把清华的页面标注,但是搜索“菠菜”,三条以上的搜索结果标注为报警,那么,这个词就可能有问题。

因为“相关搜索”关联了用户的搜索行为,用户输入了一个词汇,但没有点击任何一个链接,又搜索了下一个词汇,那么证明第一个词汇和第二个词汇是相关的;用户搜索了一个关键词,点击了一个链接,那么证明这歌链接里的关键词与这个搜索词相关。

于是,段海新和研究团队得到了 40 万个推广的黑产词汇,确定其中 94%为黑词,去掉地名等"长尾"修饰词最终得到了 1500 个左右的核心词,手工分成了六类,并提取了相关的域名和URL 还有 100万-200万个。

为了验证这些“黑词”是真的黑词,他们在2个不同的搜索引擎中再次搜索新黑词,比如,搜索“***商人”,某歌前10页全是与赌博相关的结果,则可以证明 SEO 的效果“非常好”,这些词是有效的新黑词。

拿到了黑词之后,有什么用?

(当然是为了打掉黑产,报“怡春院”之仇咯

开个玩笑。

雷锋网了解到,段海新和他的同事们做了一个厚厚的研究报告,来讨论黑词的“用处”,他也简单介绍了几个用途:

1.基于黑产推广页面留下的电话号码,他们进行了统计,发现黑产电话号码归属地最多的是山东,徐玉玉案件发生在山东,也许不是偶然事件。

2.他们依据这些黑词对贴吧、论坛进行了统计,发现这些黑词在贴吧和论坛普遍存在,如果将这些黑词反馈给搜索引擎厂商,再次搜索,可以净化搜索结果,还可以净化论坛、网上商店。

3.利用现在扩展的黑词,在教育类和政府类网站进行搜索,发现大量被攻破的网站。

目前,段海新的研究团队正在与百度合作,应用其研究成果。

注:该文引用了段海新在2017网络安全生态峰会上的部分发言,该论坛由阿里巴巴和蚂蚁金服共同主办,干货十足。

--写在最后的话--

阿里巴巴的小伙伴告诉雷锋网(公众号:雷锋网),阿里也在淘宝上应用了相关对抗“黑话”的技术,在实际应用过程中,还要面对更多变得连亲妈都不认识的“黑词”,对抗升级更可怕。

于是,雷锋网决定,在接下来的某一期中,探讨阿里到底应用了哪些“黑词”检测与对抗技术,敬请期待。

   

  本文作者:李勤

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-11-01 10:32:41

这位研究网络黑产的清华教授总结了一本《黑产黑话宝典》的相关文章

解决64位Win7系统无法连接32位XP网络共享打印机

  在使用WIN7 64位旗舰版操作系统的时候发现一个问题,64位Windows7系统无法连接32位XP网络共享打印机,而32位WIN7就可以. HP客服解释说XP 32位的操作系统与WIN 7 64位的数据不匹配,无法达到共享打印的效果,微软官网的方法是要安装WIN 7SP1补丁可解决此问题- 这里分享个简单的解决方法: 方法一: 先去下载一个64位的打印机驱动,然后添加打印机,注意这里要添加的是本地打印机,安装官网的驱动,不要检测打印机,安装完后打开打印机属性配置窗口,点击<端口>页,在该

文化部透露正在研究网络内容分级管理

本报北京专电 特派记者李春暐报道:昨天,在北京举行的第七届中国国际网络文化博览会暨2009中国国际网络文化产业发展高峰论坛上,文化部文化市场司副司长庹祖海表示,网络空间也是社会的一部分,需要立法规管. 庹祖海在致辞时表示,经文化部批准设立的经营性互联网文化单位已达615家,上网服务营业场所13.4万家,网络游戏.网络音乐.网络视频用户数量分别达到2.17亿.2.89亿.2.22亿人. 他表示,网络已成为当今社会生存发展的重要基础设施,并衍生出了新的文化产业和传播方式.正因为网络活动是人类社会生活

召开专题会议研究网络宣传管理工作

东北网5月7日讯 4月27日,佳木斯市委宣传部针对http://www.aliyun.com/zixun/aggregation/10776.html">目前网络发展中存在的突出问题,召开专题会议研究网络宣传管理工作. 市委常委.宣传部长赫贵涛出席会议并作重要讲话.他指出,规范网络管理.加强网络建设.开展网上舆论引导工作和加大正面宣传力度,是增强党和政府的执政能力.维护社会稳定大局的需要:是树立党和政府的良好形象.加快改革发展扩大对外开放的需要.这项工作对提高我市各级党委.政府网络舆情意识

如果不是黑了银行,他现在可能在黑ISIS

~ 黑客,要多晒晒阳光 ~ 今天讲的是全球十大黑客之一--马克斯 维京(英:Max Butler),马克斯 维京具有黑白双重人格,也有多重身份,他既担任过美国联邦调查局的顾问,也是计算机安全领域的著名专家,后来因建立世界上最大的地下犯罪网--"卡贩市场(CardersMarket.com)而入狱,现在还在所里蹲着... 刚开始这两种人格一起生活的很好,马克斯自幼聪明伶俐,八岁就开始自学编程,初中喜欢看<Phrack>黑客电子杂志,不吸烟.不喝酒.不吃牛羊肉.也不吸食毒品,当然啦,调皮

网易断章取义写新闻 被判损害清华教授名誉权

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 北京11月24日电网易将清华大学教授肖鹰拒绝采访的邮件内容断章取义并发表,从而引出"回骂郭德纲"的事件.为此,肖鹰教授将网易公司诉至法院索赔10万元.北京市海淀区人民法院东升法庭日前一审判决网易公司书面道歉,并赔偿名誉损害赔偿金1万元. 法院介绍,肖鹰以网易公司擅自将自己拒绝采访的私人通信内容断章取义制作成"清华

清华教授打赢网易侵权案:获赔1万元

本报记者 张国 清华大学哲学系教授肖鹰最近赢了一场官司.败诉方是网易,中国最大的门户网站之一. 上周,肖鹰接到北京市海淀区人民法院的判决书.判决生效后,他将得到一万元的名誉损害赔偿金.5500元的公证费,以及网易公司的书面道歉. 诉讼由一条300字的消息引发.它刊发在2009年3月25日的网易娱乐频道,并被广为转载.消息的标题相当吸引眼球:"清华教授肖鹰:郭德纲才是文化流氓". 此前几天,郭德纲公开斥责一些"专家"为"流氓".而这篇"网

清华教授贴吧被骂 百度被判交出“粗口”网民信息

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 清华教授蔡继明提出了一个拆散"五一"黄金周,增加清明.中秋.端午等三个传统节日为法定节假日的建议后,招来百度贴吧里网民的谩骂.蔡继明将百度公司起诉,要求停止侵权.赔礼道歉,并赔偿精神损失等210万余元.上周五,海淀法院一审判决百度公司交出骂人网民信息. 蔡继明诉称,他主持了一个假日制度改革课题,并提出了假日改革方案被国务院

清华教授肖鹰撰文批评春晚导演马东开博客回应

马东新浪博客截图 点击进入:马东博客<真人版<专家指导>--答清华大学美学教授肖鹰老师> 成都商报讯(记者 徐云霄)央视兔年春晚虽然已经谢幕,但关于它的种种话题依然沸沸扬扬,其中不乏批评的声音.日前,籍贯四川的清华大学哲学系教授肖鹰在某报纸发表了题为<春晚导演莫学"苏紫紫">的评论文章,文风泼辣,其中点名对兔年春晚语言类节目总导演马东提出质疑.昨日,马东专门开通博客发表文章<真人版"专家指导"---答清华大学美学教授肖鹰老师

清华教授状告网易侵犯名誉权

本报讯(记者卜昌伟)昨天,清华大学哲学系教授.文化批评家肖鹰透露,他于日前向北京市海淀区人民法院提请诉讼,状告网易侵犯自己的名誉权,请求法院判令网易立即停止侵权.公开书面道歉,并赔付名誉损失费人民币10万元,法院已受理该案. 据了解,今年3月底,肖鹰以电子邮件及短信形式明确拒绝自称是网易娱乐频道某工作人员的采访请求,该工作人员虽回复短信称表示"理解",却并不尊重肖鹰意愿,擅将这封拒绝采访的私人通信内容制作成新闻,以"清华教授肖鹰:郭德纲才是文化流氓"为题,发布在网站