反spam与spam间的较量

第一轮反击是,在排序时更多地依赖网页正文而不是meta tag。但spam们以进为退,在正文中大量使用与网页背景相同颜色的关键字,在图片注释文字中塞进关键字,在网页代码加入“看不见的注释”。搜索引擎又开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字。

搜索引擎的spider(蜘蛛)在访问任何网站时都会自报身份,并且查阅网站的访问规定,按照各网站的规矩来办事。于是,SEO随之制作两个网站,一个专供网友访问,一个专供搜索引擎访问,“各取所需”,这种方法叫做cloaking(外套)。

在国外,其实早在上世纪SEO SPAM便已成大热门。据1998年的一次调查,在主要的搜索引擎上搜索当时的热门词汇“Monica Lewinsky”(莫妮卡·莱温斯基),各搜索引擎首页居然有40%的搜索结果是垃圾网站。

搜索引擎只能去寻找新的相关性排序依据,或作弊者不能控制的排序依据,即到网站以外去寻找排序的依据。于是,出现了超链分析,出现了Pagerank。超链分析的原理即是看网页间的同类链接点作为重要依据,此后,又根据各网站的权重等来综合分析等。这样,gov(政府网站)和edu(教育网站)通常被赋予较高的排名,来自gov和edu的超链也有更高的价值。

但spam们又据此做大量的网站,准备大量的链接,哪个客户出钱,所有的网页都给它一个链接。这种SEO方法被称为link farm。而反spam的做法就是凭发现的link farm而认定此即为作弊网站。

据某论坛上某个站长透露,目前,在中国已经形成了一个巨大SEO SPAM市场,据反spam专家王某的估计,中国以此为生的人数大约在数十万,其网站更是高达数百万计。在互联网上,有众多SEO网站,它们打着各种旗号来“指导”人们作弊,并在上面谈心得体会。

这些SEO SPAM们“赖以生存”的方式主要是以下两种:1.利用搜索引擎引来网站流量带动的广告收入;2.贩卖通过对搜索引擎作弊获得的较高的关键词排名。网站流量以独立IP计算,根据站长的透露,自己每日5000个独立IP的访问量,仅加入了电影宽带等3家的广告联盟,月入已达1300元左右。而一个被百度收录2万左右网页的做流量的网站,每日IP很快就能涨到4万。

前赴后继的spam

SEO SPAM的破坏性是相当巨大的,它不仅直接破坏了每日数亿计的用户搜索体验———这是搜索引擎网站赖以生存的关键所在,同时也破坏了搜索引擎获得收益的主要来源———竞价排名以及相关广告。

据有关统计资料,在所有网页中,摒除无效网页,作弊网页占到整个网页的10%;在某些热门关键词的搜索中,其前50篇网页,垃圾网站的网页所占比例甚至可以高达80%以上。

在中国,Google一直以谦谦君子的形象示人,但它也有发怒的时候。

2005年3月26日凌晨4点,忍无可忍的Google突然发力,将一大批spam站点清除。Google的页面恢复了以前的干净。

但事隔不到4个月,垃圾网站的网页又如潮水般涌来。据来自Google的内部消息,Google也一直在致力于反spam,但建立一个完整的反垃圾网站系统是一个漫长的过程,在中国,反垃圾网站的人才更是奇货可居。在采访百度时,百度即不愿披露反垃圾网站专家的姓名,“因为这是百度最为宝贵的人才之一”。

据王某透露,其实在搜索引擎与垃圾网站的长期斗争中,搜索引擎总是处于守势。这不仅因为搜索引擎公司真正考虑搜索结果相关性和排序的只有几个人,而互联网上整天琢磨怎么对付搜索引擎的有几十万网站管理员,更重要的是,制造一个或几十个甚至几百个作弊网页,只要将一个目标网页稍作改动即可实现,并可以不断进行类似复制,而搜索引擎甄别、删除却需要相当的时间,这种“以一当百”,以一个网站对付数以万计作弊网站的工作,对搜索引擎而言,是一个巨大的人力资源投入与成本投入。

目前,垃圾网站的新攻击方向是博客网站。在国内的各大博客,目前均已苦不堪言,spam如蝗虫般涌来,流量太大会导致网站通道堵塞而无法访问。

这一斗争过程,已完全类同于互联网的病毒与反病毒,所不同的是,制造病毒的成本有时会更高些———需要很高的技术门槛,而制造垃圾网站的门槛却相当低,且制作方便。

因此,作为搜索引擎,对待垃圾网站的态度是高度地一致:永久删除。

但在搜索中,永远会有垃圾网站的存在,因为它每时每刻都在诞生。由于垃圾网站的成本与收入间的巨大差异,SEO SPAM们还会勇往直前,前赴后继。而到目前为止,政府以及相关部门还没有对这种互联网上的“假冒伪劣”制定相应的法律制度来制约。但相信这一天一定会到来。

时间: 2024-10-26 01:35:04

反spam与spam间的较量的相关文章

企业间的较量 2017大数据的十个走向

大数据发展已经成为未来科技发展的走向和必要的开端,预计2017年大数据十大新趋势走向将会迎来爆发式的数据增长. 1.大数据实现可视化服务 数据可视化技术让隐藏在大数据资源背后的真相呈现在众人面前.无论数据怎样形成,无论数据资源在哪里,图形数据可视化可以让企业组织在业务繁忙的同时对数据进行检索与处理.可视化数据不需要任何编程基础.你只需要上传你的数据,便能轻松地创建和发布图表,目前国际上已经有一些企业在发展大数据可视化做深入的研究,专门提供大数据可视化服务. 2.大数据进入资本市场 最近发数据的行

面向机器学习的自然语言标注.

面向机器学习的自然语言标注 James Pustejovsky & Amber Stubbs 著 邱立坤 金澎 王萌 译 图书在版编目(CIP)数据 面向机器学习的自然语言标注 / (美) 詹姆斯·普斯特若夫斯基(James Pustejovsky),安伯·斯塔布斯(Amber Stubbs)著:邱立坤,金澎,王萌译. -北京:机械工业出版社, 2017.1 (O'Reilly精品图书系列) 书名原文:Natural Language Annotation for Machine Learnin

理解Python的协程机制-Yield

根据PEP-0342 Coroutines via Enhanced Generators,原来仅仅用于生成器的yield关键字被扩展,成为Python协程实现的一部分.而之所以使用协程,主要是出于性能的考虑:一个活跃的Python线程大约占据8MB内存,而一个活跃线程只使用1KB不到内存.对于IO密集型的应用,显然轻量化的协程更适用. 概述 原来,yield是一个statement,即和return一样的语句,但是在PEP-0342后,yield statement被改造为了yield exp

SEO观察:Spamer,你还能走多远?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近时间google很怪,突然放出大量被封杀的站点,然后几天以后又消失了.但已经注意到,GOOGLE现在对于外链的效果几乎是没有防御力,留言板和BBS群发的泛滥已经成为了这个行业的主流,而用spam的手段来打击其他人和竞争对手的手段现在也凸现,石头算是一个受害者-. 通过近段时间对google的观察,已经对客户的站点及其竞争对手的考察与研究发

网站推广在搜索引擎上的体现

中介交易 SEO诊断 淘宝客 云主机 技术大厅 听过我的课程的朋友们很多次都听我讲过那个带耐克帽子穿登喜路衬衣配阿迪达斯短裤又足登鳄鱼皮鞋的故事,那么究竟为什么要选择一间公司去完成企业的网络建设以及推广等等一系列的企业网络信息化或者电子商务的工程呢?     听李成程慢慢细细道来: 我不是是在占您的时间:第一网站优化设计最重要的是网站内容要准确定位于企业的客户,这一点是网站是否能吸引您真正期望的访问者的最直接因素:为此您务必要精心的去完成您网站的内容,切不可有那些不了解您的行业和企业的所谓信息化

Python中的测试模块unittest和doctest的使用教程_python

我要坦白一点.尽管我是一个应用相当广泛的公共域 Python 库的创造者,但在我的模块中引入的单元测试是非常不系统的.实际上,那些测试大部分 是包括在 gnosis.xml.pickle 的 Gnosis Utilities 中的,并由该子软件包(subpackage)的贡献者所编写.我还发现,我下载的绝大多数第三方 Python 包都缺少完备的单元测试集. 不仅如此,Gnosis Utilities 中现有的测试也受困于另一个缺陷:您经常需要在极其大量的细节中去推定期望的输出,以确定测试的成败

Python 正则表达式操作指南_python

原文作者:A.M. Kuchling (amk@amk.ca) 授权许可:创作共享协议 翻译人员:FireHare 校对人员:Leal 适用版本:Python 1.5 及后续版本http://wiki.ubuntu.org.cn/Python%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%93%8D%E4%BD%9C%E6%8C%87%E5%8D%97目录 目录 [隐藏] 1 简介 2 简单模式 2.1 字符匹配 2.2 重复 3 使用正则表达式

《Python编程快速上手——让繁琐工作自动化》——1.6 程序剖析

1.6 程序剖析 新程序在文件编辑器中打开后,让我们快速看一看它用到的Python指令,逐一查看每行代码. 1.6.1 注释 下面这行称为"注释". Python会忽略注释,你可以用它们来写程序注解,或提醒自己代码试图完成的事.这一行中,#标志之后的所有文本都是注释. 有时候,程序员在测试代码时,会在一行代码前面加上#,临时删除它.这称为"注释掉"代码.在你想搞清楚为什么程序不工作时,这样做可能有用.稍后,如果你准备还原这一行代码,可以去掉#. Python也会忽略

比较详细Python正则表达式操作指南(re使用)_python

就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.使用这个小型语言,你可以为想要匹配的相应字符串集指定规则:该字符串集可能包含英文语句.e-mail地址.TeX命令或任何你想搞定的东西.然後你可以问诸如"这个字符串匹配该模式吗?"或"在这个字符串中是否有部分匹配该模式呢?".你也可以使用 RE 以各种方式来修改或分割字符串. 正则表达式模式被编译成一系列的字节码,然後由用 C