搜索引擎原创识别算法的技术细则

　　前段时间参加武汉的一个seo圈子的小聚会,闲聊嗨皮之余,连同几个百度的工程师一起,具体的分析了下有关百度原创识别算法,在技术方面的一些细节,觉得蛮有意思的,就写出来大家一起沟通下,求拍矮个芝麻砖.

　　搜索引擎为什么如此重视原创?

　　早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱.

　　首先,由于后期采集技术的兴起,大量的转载内容充斥网络.转载,必然会对原创产生一定的损伤,比如去掉图片,删掉一些重要的段落,或者充斥大量非原作者的注释信息.不管这么做是为了什么,但是都会降低内容的质量,使得一个关键词搜索到的内容前十几页都是同样的内容,也就使得搜索变的很无用.因此促使了搜索引擎对于原创内容进行分级显示.

　　由于后期采集技术的逐渐强大,可以自动将一些同义词进行替换和修改,也就造成了转载文章的内容质量进一步下降.网络上充斥着大量的无法阅读的文章.也就更加促使了搜索引擎对于优质原创内容的筛选.

　　其实让矮个芝麻最为纠结的一件事情就是,写了一篇文章,被人转走,改改头部底部,就变成了一篇很是霸气的文章.久而久之,很是打击作者对于文章创新的积极性.这也是搜索引擎费尽心机试图寻找到原创文章的源头,予以优先显示的最初原因.尊重作者的版权,否则一篇文章的被转载,大量的流量被引流到其他的网站,将会直接影响到作者的收益.

　　搜索引擎如何判断一篇文章是否为原创?

　　1.1转载的良心,转载保留外连,作者名,声明转载等

　　转载源不一定是原创,但肯定更加有利于搜索引擎寻找到这篇文章的最终源头.目前已知的做法的,标题留 [转] ,底部留原作者的文章链接,文章的信息中显示转载于那个作者或者网站.这是目前最为主流的识别方式.

　　1.2技术层面的识别

　　当然,这么有礼貌的转载也只是转载采集大军中的一部分.还有相当大的一部分转载,会掐头去尾改标题,外连作者就更不要提了,直接在采集过程中屏蔽替换掉.或许这是国人山寨采集的一种习惯吧,就像QQ的icq,百度的谷歌,支付宝的贝宝...所以说对于这种行为,在这咱也不予评价.

　　搜索引擎对于这类文章的识别方式就更多的是通过技术层面的东西.最为优先级的就是,那篇文章优先被搜索引擎蜘蛛抓到.同时,文章中留下的时间,对于百度蜘蛛来说是有迷惑性的.也就是说你转载一篇5月18号发的帖子,把时间改成5月16号,百度蜘蛛是有一定概率被欺骗的.

　　同时,对于改标题这方面,百度有一个很模糊的算法.具体的做法就是对比标题和内容的关联性.具体的判断做法尚不清楚,但根据以往的经验来看,如果标题和内容完全没有关系,这篇文章很容易被百度忽视掉.这就说明搜索引擎对于这方面还是有一定的识别度的.同时,对于略有区别的两篇文章,百度可以根据内容的通顺程度,判断出哪一篇的质量更高.

　　采集内容很难识别,搜索引擎的算法有待提高

　　到这,很多人可能觉得搜索引擎的识别算法已经很强大了.但是事实是,采集的文章还是很难被识别.

　　1.1采集工具的伪原创学习能力很强大

　　因为现在的采集工具对于同义词,语句是否通顺的机器自我学习能力也是很强大的.现在采集的一篇文章经过采集工具的处理,即便是个人,也只是觉得语句略微僵硬,也很难感觉出这篇文章是出自软件之手,所以这也是搜索引擎目前很头痛的一点,因为这种文章的质量,毕竟要比原创差太多了.

　　1.2网页结构过于复杂,html结构难以识别

　　虽然有很多的网站在做符合搜索引擎优化方面的规范,但是内容区域和栏目,热门主题的推荐,广告等内容在html中的分离并不明显.这也就增加了搜索引擎对于内容的读取后的识别分离.通过web手机版的优化阅读就可以看出,目前百度其实还是会经常会无法区分哪些是文章的标题,哪些是作者,内容,发布时间等.这也就造成了最终对于原创内容的对比,存在一定的偏差.

　　1.3文章制造工具,直接生成原创文章

　　目前网络上流行着很多原创文章制造工具,比如直接从英文文章利用谷歌翻译翻译过来,利用语句的匹配自动匹配出一篇对于搜索引擎的蜘蛛看来是一篇完美的文章,但是对于用户来说,除了大量的关键词堆砌,毫无意义.

　　一系列的文章,最终决定了目前的搜索引擎,矮个芝麻觉得搜索引擎还是需要加大对于原创内容的识别投入,因为现如今的采集和伪原创技术,可以远远的走在前列哦~矮个芝麻博客http://www.cl889.com.

时间： 2024-09-20 00:42:58

搜索引擎原创识别算法的技术细则

搜索引擎原创识别算法的技术细则的相关文章

百度的技术缺陷对原创识别有待改善

浅述搜索引擎的分词算法了解全文检索技术

人脸识别算法终于超过了人类本身

fusesource-做人脸识别算法，在进行肤色分割时遇到一些问题，求大神帮助！

人工网络-基于人工神经网络的人脸识别算法

《中国人工智能学会通讯》——11.14 三维人脸识别算法

搜索引擎网页去重算法解析

百度原创星火计划搜索引擎如何识别重复内容

搜索引擎如何识别原创和伪原创