看百度如何判断原创内容 谈谈原创项目那点事

  一、搜索引擎为什么要重视原创

  1.1 采集泛滥化

  来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

  1.2 提高搜索用户体验

  数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

  1.3 鼓励原创作者和文章

  转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

  二、采集很狡诈,识别原创很艰难

  2.1 采集冒充原创,篡改关键信息

  当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

  2.2 内容生成器,制造伪原创

  利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

  2.3 网页差异化,结构化信息提取困难

  不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

  三、百度识别原创之路如何走?

  3.1 成立原创项目组,打持久战

  面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

  3.2 原创识别“起源”算法

  互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

  目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。

  3.3 原创星火计划

  我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是“原创星火计划”,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于“起源”算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

  目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

  最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

时间: 2024-09-21 01:52:50

看百度如何判断原创内容 谈谈原创项目那点事的相关文章

看搜索引擎营销公司网站内容伪原创走到尽头

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 现在发现个人站长做站越来越难了,马上就要饿肚子了,唉,混的太惨了,大点的网站都公司化,行业的细分化,大公司的竞争行业网站,让站长们连梗都喝不上了.医疗行业是暴利行业,大大小小的医疗站相继上线,医院跟疯了是的,大力在网上宣传,给搜索引擎网络营销带来了春天. 随着医疗网站的增加,医疗行业的细分,而且医疗相关文章的大同小异,所以基本每个站的内容基本

力洋SEO浅谈百度怎样对待网站原创内容

最近这段时间自己感觉真的有点累了,对SEO的热情开始减低了.好像对什么事情都开始有点淡了,热情没有当初的那么高涨了,这估计和一般的SEOER有着同样的过程吧!今天逼着自己一定要静下心来,无论是为了网站的优化工作还是直接点,为了生活.这篇文章主要是想谈谈自己的一些实践经验感想,也是大家比较关心的百度优化关键词经验. 力洋网络公司有一个网站,从上线到今天关键词排名百度首页,时间不到两个星期.或者大家可以直接查看:佛山网站建设(www.guanghei.com)这个网站的.原来这个网站是一个游戏网站来

百度算法调整后网站的原创内容和转载比例怎么调整

网站内容更新是一项漫长的工作,我们不可能所有的内容都原创,需要一定的转载.但自从6月28号百度算法升级以及这次的8月22号百度算法升级公告中80%都是针对内容的,都是为了打击垃圾内容的网站.本来我们网站原创搭配一定的转载是可以的,但最近几轮算法升级后,发现这个情况有变,原创内容过少,转载或者伪原创过多的网站受到不小的冲击,排名不断下降.我想这里面有很大的关系就在于搜索引擎调整了原创与转载的比例,所以今天再跟大家聊一下一个网站转载和原创的比例究竟是多少才是合理的. 其实对于一个网站不同的时期,原创

关于原创内容的一些疑问和解答

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近笔者在纠结一个问题,就是原创内容的一些疑问: 1.什么叫原创内容,原创内容对网站的作用到底有哪些? 2.假如将原创内容发到一些文库里,文库里带上来源地址,那这些内容算是原站的原创还是算文库的原创? 3.原创内容的生存周期是多长? 4.原创内容的字数多少最为合适? 针对以上三个问题,笔者通过各大网站及高人的见解,总结了一下,现将心得总结出来

浅谈原创内容对网站的用处与寻找方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 原创!原创!现在每个站长都希望自己的网站整站都是原创内容,不再想通过转载来填满网站,但是很多时候,站长的脑力又是有限的,怎么才能得到更多的原创内容,所以,很多的时候,站长就要八仙过海,各显神通了.伪原创,伪伪原创就出现了.但是这种内容肯定比不上原创内容的,虽然可以让搜索引挚收录,而且还可能得到排名,但是这样的排名不会长久,而且让用户觉得有种敷

剑走偏锋:审视夺度的看百度优化

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 刚刚进入SEO这一行时,就听闻了一个如雷贯耳的句子"内容为王,外链为皇".然后便是跟风一般狂做内容,跟风一般狂发外链.忽然一天,网站被K了.喔,知道了.百度说我是垃圾文章,说我是垃圾外链.特怀恋08年的时候,做一个论坛.也没那么多工具.复制粘贴,一篇一篇文章的导入,最后充实了内容,然后交换下朋友论坛的链接,最后在狂发一通外

百度新算法怎样判断高质量外链和原创内容

百度搜索引擎为了提高互联网的良性发展,对搜索算法的更新也是日新月异,短时间内推出两大搜索新算法,要求网站运营需要符合用户体验,给用户提供有价值的内容,新算法给站长们带来的影响是很大的,百度搜索引擎判断高质量外链和原创内容的标准是怎样的?哪些因素能影响到蜘蛛的判断? 判断外链是否用户真心推荐 百度判断一个外链是否为问题外链的唯一原则:是否是用户或者其他网站的真心推荐,是否具体高质量的推荐意义.蜘蛛又是如何判断外链是用户推荐还是网站运营推广者,蜘蛛会根据用户搜索的关键词.URL.IP地址.浏览器的类

百度如何判断原创

摘要: 在上篇百度鼓励原创中,Q猪引用了百度站长平台关于如何判断原创的一段话,今天Q猪想就这段话,谈谈判断原创的几种方式,欢迎拍砖. 站长平台关于百度如何判断原创的描述是这样 在上篇百度鼓励原创中,Q猪引用了百度站长平台关于如何判断原创的一段话,今天Q猪想就这段话,谈谈判断原创的几种方式,欢迎拍砖. 站长平台关于百度如何判断原创的描述是这样的: 首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合; 其次,对原创候选集合,通过作者.发布时间.链接指向.用户评论.作者

重新认识百度蜘蛛获取原创内容的方法

百度的原创火星计划一度让很多站长心灰意冷,搞一个网站哪有那么多精力去写那么多的原创内容呢?况且就算是写了原创内容,往往还被某些大神采集走了,由于对方的网站权重高,最后自己的原创文章给别人的网站做了嫁衣裳,这显然是得不偿失的.站长这些担心如果放在原创火星计划之前,或许还真的如此,但是在这个计划实施之后,原创内容是不是轻易的就转化成别人的口中餐呢?对此广大站长有必要对新的百度蜘蛛识别原创内容的方法进行重新认识,从而规避百度蜘蛛对原创内容错误的风险. 首先要及时的向百度提交地图,当你的网站内容更新之后