搜索引擎原创识别算法的技术细则

  前段时间参加武汉的一个seo圈子的小聚会,闲聊嗨皮之余,连同几个百度的工程师一起,具体的分析了下有关百度原创识别算法,在技术方面的一些细节,觉得蛮有意思的,就写出来大家一起沟通下,求拍矮个芝麻砖.

  搜索引擎为什么如此重视原创?

  早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱.

  首先,由于后期采集技术的兴起,大量的转载内容充斥网络.转载,必然会对原创产生一定的损伤,比如去掉图片,删掉一些重要的段落,或者充斥大量非原作者的注释信息.不管这么做是为了什么,但是都会降低内容的质量,使得一个关键词搜索到的内容前十几页都是同样的内容,也就使得搜索变的很无用.因此促使了搜索引擎对于原创内容进行分级显示.

  由于后期采集技术的逐渐强大,可以自动将一些同义词进行替换和修改,也就造成了转载文章的内容质量进一步下降.网络上充斥着大量的无法阅读的文章.也就更加促使了搜索引擎对于优质原创内容的筛选.

  其实让矮个芝麻最为纠结的一件事情就是,写了一篇文章,被人转走,改改头部底部,就变成了一篇很是霸气的文章.久而久之,很是打击作者对于文章创新的积极性.这也是搜索引擎费尽心机试图寻找到原创文章的源头,予以优先显示的最初原因.尊重作者的版权,否则一篇文章的被转载,大量的流量被引流到其他的网站,将会直接影响到作者的收益.

  搜索引擎如何判断一篇文章是否为原创?

  1.1转载的良心,转载保留外连,作者名,声明转载等

  个人觉得,这是一种纯良心的做法.因为在转载走的时候,删掉你的信息是很轻松的.当然,大量的采集可能不会删掉原作者留下的版权声明.这就给了搜索引擎一个很好的识别方式.首先,一般的门户在转载文章后,都会很礼貌的在标题后面留下一个[转]字.比较厚道一点的,还会在文章的底部或者头部留下转载源的链接.

  转载源不一定是原创,但肯定更加有利于搜索引擎寻找到这篇文章的最终源头.目前已知的做法的,标题留 [转] ,底部留原作者的文章链接,文章的信息中显示转载于那个作者或者网站.这是目前最为主流的识别方式.

  1.2技术层面的识别

  当然,这么有礼貌的转载也只是转载采集大军中的一部分.还有相当大的一部分转载,会掐头去尾改标题,外连作者就更不要提了,直接在采集过程中屏蔽替换掉.或许这是国人山寨采集的一种习惯吧,就像QQ的icq,百度的谷歌,支付宝的贝宝...所以说对于这种行为,在这咱也不予评价.

  搜索引擎对于这类文章的识别方式就更多的是通过技术层面的东西.最为优先级的就是,那篇文章优先被搜索引擎蜘蛛抓到.同时,文章中留下的时间,对于百度蜘蛛来说是有迷惑性的.也就是说你转载一篇5月18号发的帖子,把时间改成5月16号,百度蜘蛛是有一定概率被欺骗的.

  同时,对于改标题这方面,百度有一个很模糊的算法.具体的做法就是对比标题和内容的关联性.具体的判断做法尚不清楚,但根据以往的经验来看,如果标题和内容完全没有关系,这篇文章很容易被百度忽视掉.这就说明搜索引擎对于这方面还是有一定的识别度的.同时,对于略有区别的两篇文章,百度可以根据内容的通顺程度,判断出哪一篇的质量更高.

  采集内容很难识别,搜索引擎的算法有待提高

  到这,很多人可能觉得搜索引擎的识别算法已经很强大了.但是事实是,采集的文章还是很难被识别.

  1.1采集工具的伪原创学习能力很强大

  因为现在的采集工具对于同义词,语句是否通顺的机器自我学习能力也是很强大的.现在采集的一篇文章经过采集工具的处理,即便是个人,也只是觉得语句略微僵硬,也很难感觉出这篇文章是出自软件之手,所以这也是搜索引擎目前很头痛的一点,因为这种文章的质量,毕竟要比原创差太多了.

  1.2网页结构过于复杂,html结构难以识别

  虽然有很多的网站在做符合搜索引擎优化方面的规范,但是内容区域和栏目,热门主题的推荐,广告等内容在html中的分离并不明显.这也就增加了搜索引擎对于内容的读取后的识别分离.通过web手机版的优化阅读就可以看出,目前百度其实还是会经常会无法区分哪些是文章的标题,哪些是作者,内容,发布时间等.这也就造成了最终对于原创内容的对比,存在一定的偏差.

  1.3文章制造工具,直接生成原创文章

  目前网络上流行着很多原创文章制造工具,比如直接从英文文章利用谷歌翻译翻译过来,利用语句的匹配自动匹配出一篇对于搜索引擎的蜘蛛看来是一篇完美的文章,但是对于用户来说,除了大量的关键词堆砌,毫无意义.

  一系列的文章,最终决定了目前的搜索引擎,矮个芝麻觉得搜索引擎还是需要加大对于原创内容的识别投入,因为现如今的采集和伪原创技术,可以远远的走在前列哦~矮个芝麻博客http://www.cl889.com.

时间: 2024-09-20 00:42:58

搜索引擎原创识别算法的技术细则的相关文章

百度的技术缺陷 对原创识别有待改善

百度技术缺陷肯定比较多,我说出一些我个人认为的百度技术缺陷,其他的缺陷有待大家再探讨补充,不多废话了,我个人认为目前百度有如下3大技术缺陷,对互联网影响比较深远,希望百度工作人员可以看到,能够进一步改善,则是互联网之福,网民之福. 百度技术缺陷一:无法准确快速的识别原创,导致原创动力大大丧失,互联网创造力面临折戟危险.这其实对互联网创造能力和互联网发展是致命的,用最经典的话来讲就是:只重视好内容出现在哪里,而不在乎好内容是谁创造的,这无疑会大大打击原创人员的积极性,小编深有体会,小编负责的运营部

浅述搜索引擎的分词算法 了解全文检索技术

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 21世纪互联网的快速发展让人们生活越来越便利,当日益剧增的海量信息让我们眼花缭乱时,搜索引擎的出现可以让我们快速找到自己想要的答案.因此多了解搜索引擎的分词算法,可以让网站在搜索引擎上获得更好的展现机会.在讲解中文分词技术之前,先来了解下全文检索技术. 全文检索技术 全文检索是指索引程序扫描文章中的每个词并建立对应索引,记录该词出现的位置和次

人脸识别算法终于超过了人类本身

计算机科学家已经开发出一种新的http://www.aliyun.com/zixun/aggregation/10175.html">人脸识别算法,在识别人脸的能力上比人类本身更加强大. 我们每个人都有过认不出某个自己曾经认识的人的经历,在不同的姿势.光照和表情下,这其实是一件比较困难的事情.计算机识别系统同样存在这些问题.事实上,尽管全世界的计算机科学家努力了这么多年,还是没有任何一种计算机识别系统在识别人脸方面能够像人类一样强大. 但这并非是说人脸识别系统不够准确.恰恰相反,最好的人脸

fusesource-做人脸识别算法,在进行肤色分割时遇到一些问题,求大神帮助!

问题描述 做人脸识别算法,在进行肤色分割时遇到一些问题,求大神帮助! 在做人脸识别算法的肤色分割时遇到一些问题,求大神帮助! 对图像进行光线补偿后,把图像从RGB空间转换到YCbCr空间,然后根据已经统计好的肤色模型计算其肤色相似度,最后转换为灰度图,可是转换后结果如图所示: 代码如下,求大神帮看看哪里出了问题!大谢! %fR1/fG1/fB1均为光线补偿后的图像数据: %彩色空间转换 fCb1=128-0.147*fR1-0.289*fG1+0.436*fB1; fCr1=128+0.615*

人工网络-基于人工神经网络的人脸识别算法

问题描述 基于人工神经网络的人脸识别算法 本人初次接触机器学习,0基础,现不得已需要学习BP和RBF算法,求高手指导(注:以前从未接触过这两种算法,所以最好能提供些具体讲解此两种算法的资料) 解决方案 Andrew Ng stanford 机器学习课程视频,网站学习:http://ufldl.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B 解决方案二: 我正在做这个,非常非常好

《中国人工智能学会通讯》——11.14 三维人脸识别算法

11.14 三维人脸识别算法 三维人脸识别由于其类内差距大而类间差距小,且易受表情变化等非刚性形变影响等特点,一直是一个富有挑战的模式识别问题[5] .此外,三维人脸识别还易受头发遮挡,以及数据缺失等因素的影响.通过分析发现,虽然表情变化会改变人脸的三维形状,但人脸的局部形状信息依然能保持较好的稳定性.因此,采用局部特征匹配的方式可以有效地降低表情变化对人脸识别带来的负面影响.基于此,本文提出了一种基于 RoPS 局部特征的三维人脸识别算法[9] .该算法首先采用鼻尖检测获得人脸点云:接着对三维

搜索引擎网页去重算法解析

seo优化培训:搜索引擎网页去重算法解析 以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下: 相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的. 即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的! 搜索爬虫抓取会产生网页重复的类型: 1.多个URL地址指向同一网页以及镜像站点 如:www.sina.c

百度原创星火计划 搜索引擎如何识别重复内容

百度搜索引擎为了整顿互联网的信息内容,大尺度推出"百度原创星火计划",为了此计划能高力度执行,建立了相应的专题页,更是邀请高质量的站点加入星火计划.我们现在面对的正是一个充斥着"重复内容"."大量垃圾内容"的时代,星火计划中搜索引擎又是如何识别重复内容的? 搜索引擎为给用户提供高质量的内容,在用户搜索相关内容时,会通过一些过滤机制过滤掉重复的内容,而不是展示出大量重复相同的结果,如果网站存在大量重复内容,在搜索引擎过滤过程中可能会给网站带来影响.

搜索引擎如何识别原创和伪原创

1.文章发布时间:相同的一篇文章,发布并且被搜索引擎收录的时间越早,越容易被搜索引擎认为是原创文章. 2.文章锚文本连接:相同的一篇文章,被各个网站相互转载,如果有文章内部的锚文本连接都指向同一个网站的话,这无疑会增加被搜索引擎认可是原创的筹码. 3.关键词词频:这里大家需要了解一个名词:"信息指纹",信息指纹类似人类的指纹,搜索引擎截取一定目标文字,然后根据一定的算法,将文字及其权重转化为一定的编码,这些文字可能是几个字符,可能是一句话或者几句话,通常一篇文章对应多个信息指纹,如果你