从小切口看引擎对原创文章的抓取与排名

  昨天(12.18)在写了一个文章:<购买网站应注意的九个问题>

  文章首先发布在了落伍者,然后发布到了艾瑞网,又发布在了站长网,最后找朋友发在了挖新闻网。

  下午五点的时候三大引擎都收录了.只是排名都不相同.

  今天由这个很小的切口来看一下.各大引擎对于原创文章的抓取入排名情况.

  以下搜索的截图时间为 12.19 上午11点.

  全部是以 "购买网站应注意的九个问题" 带冒号的方式搜索出来的结果.

  首先看一下百度.

  

  估计这个排名.多数专业人士看了之后会符之一笑.

  可以看的出来,百度对于文章的排名是按时间顺序排的.文章的开头我提到了发布顺序.

  至于为什么把那上面的不知名博客排在第一个.我想唯一的解释就是百度蜘蛛最晚一个

  抓取到了文章吧.可以从快照里又看出问题.有证证据噢...

  我在那个文章中的第二段文字中举了一个例子,原文是这样的:

  “我通过这个网站曾成功的购买了一个非常好的域名:www.99wol.com 查看其它历史在2005年的时候曾经是一个机械类网站。”

  当发布在站长网以后,编辑可能感觉我AD了.于是把上面的域名中的.(点)刻意改成了 。(句号)

  而这个快照里的就是句号.

  可以肯定的说.此文章是在12.18号上午10点以后复制过去.或者采集过去的. (因为10点的时候,11544.html">我联系编辑改了那个句话)

  所以,换句话说,排在第一个的地址.是最后发布文章的.

  而从这个小切口,我们可以看出,百度在排名上对于时间的先后非常看重.最后发布的经常能获得好排名.

  百度对于文章的抓取速度还是比较快的,但是对于是否原创,在哪里首发.好像并没有作处理.

  其实这样的例子也非常多了.如果有自己发过原创文章的朋友,你们现在在百度搜索一下你文章的名字.

  估计一般不会排在第一个,除非转载率极低的.

  再来看一下GOOGLE

  

  前两天看过小鹏的一篇文章:Google在处理内容原创性问题

  其中有句话是说:这样的做法就是说,谁先发出,即刻给排名,后面收录的不管你是权重多高的站点,都在该原创之下。

  看来GG要作到这一点,还需要一点时间...

  如果单从这个截图上来看,好像GG和百度差不多.发布最晚的那个.或者说被最晚抓取的那个.排在了第一

  上面的挖新闻是19小时前,而站长网则是23小时前...

  站长网的文章.排在了后面.

  如果按"谁先发出,即刻给排名" 那应该是落伍排第一...而落伍也在后面.

  原创文章的处理及排序确实是引擎急需解决的一个问题.

  但是排名中并没有出现,像百度图片当中那些不知名博客的排名..全部是有一定知名度的网站.

  看来.GG排名中更加看重的是网站的权重.

  最后来看看YAHOO

  

  说实在的,平时确实很少关注YAHOO引擎.或许是来流量实在是不大的原因吧.

  只听说有专门作GOOGLE的,有专门作百度的.很少听说有专门研究YAHOO的...

  从这截图上可以看的出.YAHOO也比较重视抓取的时间与网站的权值.

  而至于排名中没有抓取到站长网的文章.我实在有点意外...

  从这个文章的小切口,可以看的出三大引擎对于原创文章的排名因素方面,文章的抓取时间起着非常重要的作用.

  作出这几个截图来看.基本上可以确定.

  三大引擎对于文章的排名,都是抓取最晚的排在前面.其次再看网站的权重.

  当然这只是一个小小的实验.而且这个实验是在文章发出一天之后查看的.相对来说观察时间还是比较短的.

  或者在过几天,会重新排序一下.也说不定....后面几天会怎么样.谁都不知道..

时间: 2024-11-02 06:32:26

从小切口看引擎对原创文章的抓取与排名的相关文章

微信公众号文章如何抓取

问题描述 微信公众号文章如何抓取 如题,请问,现在有什么好的方式抓取微信公众号文章的方式吗?我现在用的是搜狗的入口,但是这个入口每几个月就会变换规则,接口整体大改,不稳定,有没有其他什么好的方法? 解决方案 搜狗微信公众号文章抓取 解决方案二: 没有什么好办法,只能通过搜狗,而且如果信息多还无法捉取全部的,好像只能显示前40条.. 解决方案三: 微信文章内容的话可以使用辅助工具, 把微信文章链接输入,然后把整篇内容抓取出来,一般像微小宝之类的工具都有这个功能 解决方案四: 是指这个吗http:/

企业网站要不要写原创文章,您怎么看?

导读:更新文章是每个网站运营者必须做的工作,经常更新网站内部文章,保持网站的活跃度,利于吸引蜘蛛的抓取网站页面,完善内部链接,提高网站权重.在更新网站文章的时候,许多站长坚持不下去写原创文章,看到别人网站文章是从互联网复制,同样被收录,就自作聪明,各种采集,各种复制,以为只要保持网站的有内容更新就可以,殊不知别人网站权重高,与搜索引擎之间的信赖度非常好,自己新站或者小企业站,这么去做需要承担的风险是有多大,今天深度网小编就来与大家聊聊网站要不要写原创文章这个话题. 1.搜索引擎喜欢原创有价值的文

写中英文原创文章的方法从入门到精通

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 原创文章,对于一个网站来说是非常重要.现在搜索引擎开始越来越注重网站内容,所以以前那种用伪创的方法肯定是不行了,但是要想写出一个原创的内容,对于很多站长来说还是很有难度的,这边我就说说我自己,原创文章的一些经验.只要你认真地读这个文章,然后按照我的方法来做,你就可以也很容易的,写出一篇原创性,可读性都非常强,非常专业的原创文章,包括了中文原创

求助:Java怎么样实现爬虫,抓取博客里面的所有文章,希望指点下该从哪里学习,推荐一些书籍之类的

问题描述 经常逛博客,看到很多文章想保存起来,到Kindle里面看,于是就有了抓取博客里面所有文章的需求,但是不知道该怎么实现,自己也查了一下,但大部分都是讲的原理或者直接贴代码,希望大婶们推荐点相关的书籍供研究学习哈 解决方案 解决方案二:不知道你是不是专门做爬虫的,爬虫很广的.简单的就是页面数据提取.解决方案三:自己做demo爬些文本数据很简单,就像你说的网上很多demo都可以.不过建议你用Jsoup,当你拿到网页Html内容以后,Jsoup帮你构建出一个Dom树,你可以像在浏览器中使用jq

MySQL解决抓取文章的html标签替换及其mysql函数的用法说明

刚刚做完了一个手机客户端的攻略的Html5 Web App页面,新的需求出现了:由于攻略文章是抓取过来的,有很多外链,一开始没有过滤.于是先用PHP写了一个过滤函数,然后批量执行更新相关数据库记录即可. public static function filter_newslink($aid){ $content = mod_news :: get_newscont($aid); //先过滤图片的外链 $content = preg_replace('/<a (.*)>(<img.*>

你需要看的原创文章重点

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 现在大家都在说原创,原创文章等等,这也是站长们最头痛的一件事,每天写各种文章难免会有江郎才尽的感觉,所以在这里小编为大家提供一些软文写作的重点,希望对各位站长有所帮助. 1.不要完全的广告性质 很多站长觉得我写的软文就是为了推广,就是要为产品做广告,为了广告而广告,这样用户读起来就会非常难受也就不会有人想去阅读了,就像现在的电视里电视剧中间都

关于网站原创文章收录的两种猜想

站长们每天坚持原创文章,伪原创文章,甚至是采集文章的目地都是为了网站更新,网站有规律的更新才能更好的进行seo优化工作.由于伪原创文章与采集文章的特殊性,就不作为分析范畴.很多的站长尤其是新站站长都有相同的经历,辛辛苦苦原创出一篇文章发布到自己的网站上,但是由于是新站或者其他的原因,搜索引擎迟迟不收录放出来.如果这时候偶然被其他同类站点发现后,抄袭或者转载过去,修改了锚文本或者版权之后发布出来,搜索引擎正常收录放出来.在搜索引擎中搜索自己原创文章标题,出现的信息确是别人的网站,这时候心里有种说不

原创文章的理解形式到底有几种

百度当天就可以收录新站方式和经历关于老鸟站长们来说兴许不是什么稀奇的事件,但关于大局部的老手站长来说,可以是一个很艰难的题目.一个新站关于老手站长,兴许须要15天赋可以被百度收录,即使是很优良的网站也最起码须要一周的时光才可以被百度收录.这里相关于Google就未几说了,个别一个新站都会在第二天被Google收录. 记得本人最初做小站的时分,一个站第二天就被Google收录了,然而百度迟迟就是不肯收录,每天在百度里检查一下能否已经收录,真的是很急人.那一个小站在一个月的时分才可以查到,然而收录的

怎么获取高质量原创文章方法

现在具体说说以何种方式来获取原创文章.大家都知道qq吧?qq到处树敌,百度更不例外.最近qq空间里的文章已经无法通过百度访问了,就算可以也需要登陆qq空间才可以.百度也渐渐不再收录qq空间里的文章,既然qq空间的做法,让各大搜索引擎很难再收录它.那我们如果把别人qq空间里的原创文章拿出来放到我们的新浪博客里,那效果就可见一斑了. soso,最近这个qq旗下的搜索引擎好像自立门户,soso新引擎搜索效果确实很人性话.打开soso进去我们选择博客搜索,再选择搜索qq空间内的文章,然后选择一天内发表的