分析如何改善百度对网站收录

 是否被爬虫爬过

  页面质量是否过关

  上一篇文章已经提过了收录率这么一个指标,很多网站都懒得去做这个指标,“我看看site的数据不就行了!”,事实上没有这个指标,很多工作就无从下手。从数据中找出问题,利用数据指导解决方案,分析数据验证工作成果。 最近看了《深入浅出数据分析》这个本,觉得不错,把数据分析的方法讲得很生动,建议有兴趣的从事数据分析的同学可以买本看看。 任何数据分析由,目标->分析->评估->决策,四个环节组成。

  目标:我们想看一下网站的收录情况如何,在SEO方面是否还有提高的机会。

  分析:收录情况什么算好什么算坏,是不是用一些指标来衡量?网站的收录情况是不是过于笼统,是不是应该细分下各个页面的收录情况?

  评估:于是我们需要下面一些数据

  网站的页面层级关系

  

 

  各个层级页面带来的SEO流量

  各个层级页面的收录情况如何

  

 

  SEO流量的占比可以从Google Analytics中过滤出来。

  页面数量可以从数据库获得,或者通过火车头or自制小脚本抓取统计。

  收录率可以将获取的页面通过工具进行搜索,火车头也可以。

  这边广告下zero的工具:http://www.gnbase.com/forum.php?mod=viewthread&tid=11468&highlight=%CA%D5%C2%BC%B2%E9%D1%AF

  问题立马凸显!

  1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此!

  

 

  产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内容的问题,本文中先不管它了。

  决策:我们的结论是立刻展开行动对目录页面进行收录的优化。

  看到这边,似乎刚开始的目标:“通过优化收录提升流量”

  演变成了新的目标:“如何提高目录页面的收录量”

  这边能不能再次通过数据分析的方法进行SEO呢?

  答案是肯定的!

  我们再来重新走一遍 目标->分析->评估->决策 的过程

  目标:提高目录页面的收录量

  分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行过,网页的质量是不是过关。

  1. 关于爬虫的情况,我们需要分析日志,才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。

  2. 由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的:

  已被爬行的页面数量/已被爬行并且被收录页面数量

  来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,那至少说明这套页面的内容搜索引擎还算认可。(实际情况远比这个复杂,而且收录后也有可能因为质量问题被删除,但总比什么参照都没有要好,对吧!)

  评估:(敏感信息用编号代替,均为真实数据)

  先看一下爬虫日志的情况,通过Shell脚本,我们可以分析出。

  目录总计被爬行的次数为13000次左右

  不重复的目录爬行次数为5500次左右

  频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。

  其余频道下的目录被抓取的覆盖率不到30%

  

 

  不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只要你把数据不断的细分,细分,再细分,总会观察出一些端倪的。

  关于日志分析,不要迷信任何的日志分析软件,那都是给懒人用的,自制脚本+Excel才是王道,可以拆分显示出任何你想要的数据,当然,甚至可以连Excel都不要。

  然后,我们统计了一下被抓得最频繁的频道A和频道B,目录页的收录率

  

 

  频道A和B是很让人放心的,说明页面质量没问题,但是余下的收录情况就让人比较担心了。

  决策:通过上面的数据评估,我们已经得到了如下结论。

  页面质量并不是影响收录的原因。

  频道A,B的抓取量异常的高,通过调查了解,原来是首页上的目录页,显示的全是频道A下的目录页,首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源,权重也非常高。

  除了A, B频道,其他频道的抓取情况不容乐观,抓取入口太少,太深,进而影响了收录情况。

  很明显,现在频道A从站内的角度来说太强大了,必须进行一些“劫富济贫”的运动来降低频道A的抓取量,转移到其他频道中去。同时,需要给爬虫提供更多的入口抓取频道页。

  现在问题变得清晰起来,我们开始把工作分成两部分:1.提供更多的入口 2.将资源平分给各频道而不是集中在少数几个频道上。

  提供入口工作:

  1.把目录页的URL制作成sitemap。提交给搜索引擎,并且将其设置为比较高的抓取权重。

  2.完善面包屑导航,将面包屑导航划分得更加细致,以提供更多入口

  3.在其他产品中推荐目录页

  资源平分工作:(一些概念:任意页面都有可能成为爬虫入口,百度爬虫抓取深度有限,页面相对入口越浅,被抓取的概率越高。)

  1.原先首页指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首页进入的爬虫,全部抓取到频道页,通过频道页再进入目录页(其实这个不算太重要)

  2.原先频道页指向自身的产品页,将其全部nofollow(确保从频道页入口的爬虫,最大程度的抓取目录页)

  3.从目录页返回到首页的链接,将其全部nofollow。

  4.减少一些页面上无关链接。(什么情况下这么做都是非常有效的。)

  现在可以开始动手了。。

  成果

  这么做到底有什么效果呢,我们来看看修改后1个月后的数据。

  

 

  目录页的收录率提高了100%!

  产品页的收录率也有一定程度的提高,这是归功于目录页对于产品的良好展现。

  目录页的SEO表现:

  SEO流量占比上升了15%

  增长10%的到访关键词数量(新页面的收录)

  SEO流量增长了50%以上。(包含一些季节因素)

  备注:

  1.除了收录,排名也是问题,可以同步关注。

  2.对于频道A这样特殊情况,甚至可以对其进行全屏蔽,但是技术上实现起来会略微麻烦。

  3.百度对nofollow的支持据说很混乱,有认识百度内部人士可以帮忙问一下

时间: 2025-01-23 12:00:37

分析如何改善百度对网站收录的相关文章

解读百度的网站收录和网站清除规则

导读:在网上见到一网友发的一个帖子,要求百度制定搜索收录规则,而实际上百度早就已经制定了名为百度与站长的建站指南,公布了如何让网站被百度收录,什么样的网站会被百度拒绝收录或抛弃等相关条款.在我的<百度反作弊手段失去公信力>一文中,我提到:这些条款太过笼统,而在实际中可以被其意解释和曲解,并无实际的操作意义.那么,本文,石头就针对百度对应的拒绝收录和惩罚站点的相关条款进行分析.以让更多的人了解百度的相关规则. 百度相关规则的全文见于<百度与站长>,仔细阅读完毕,可以得出,一个站点被百

新手建站对于百度谷歌网站收录的一点看法!

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 新站在百度,谷歌的相互拉拢打压中发展前进 我自己真正做站也有2-3个月了,虽然说是新手,但是新手建站也有些体会,特别对对于SEO,我想这是每个站长都在想的事!以前是为别人管理网站,发展到现在自己做站,通过2个网站的相互对比,发现百度跟谷歌对于网站,特别是新站实行的是相互"拉拢打压"政策! 拿湖南永州论坛来说吧,网站建成第二

百度恢复网站收录,没有权重自我猜想

从6月份开始,百度开始大范围打击低质量站点,无法统计有多少站长手上的网站被打击掉,是真的垃圾站点也好,还是"躺着也中枪"也好,还是有不少站长坚持着SEO,相信百度会有一天给自己一个公道,武汉seo余斗也是如此,坚持了快半年,本月16号左右手上的被K的站基本全部恢复,个别快照停滞也不影响什么,到各大站长论坛发现大家都在讨论这个问题,同时,也发现另外一个奇怪的地方,这些站虽然恢复了,但是只是有收录又快照而已,百度并没有给予任何关键词的排名. 以上就是武汉seo余斗截取的近期恢复的站点的基本

懒人seo:分析关于七月百度更新网站的几个因素

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 天天跟随着百度走,看这自己网站半死不活的样子,也不知道多少站长为之憔悴或黯然.日转星移,总算盼来了百度的这次大更新,我分析了手头上几个站的搜索情况,做了些分析,很多人都在讨论,这次更新是不是算法又变了.其实就象百度写给站长的信一样,重要的,还是从用户角度上出发,SEO优化是必不可少的.如果你觉得说只是考虑用户体验,而不去做任何优化,就觉得流量

提升百度对网站收录量和快照更新时间浅析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 如果在建站前看看百度的SEO优化指南我们会知道,网站内容要天天更新,最好是高质量的原创文章,这样能够被百度收录,可是很多人这么做之后,发现网站的收录量并没有增加,快照时间也没有快速更新,这实在让人丈二和尚摸不着脑袋了!经过分析知道很多人因为错误的理解了SEO相关的知识,而走向了SEO优化的误区,认为做SEO优化只有两件事,一是外链,一是内容,

百度网站收录忽高忽低的真正原因

之前看到有人分析google和百度在网站收录上的差别,相信站长们都有体会,最直观的就是google对于网站目录挖掘的更深,收录的更快,而百度感觉得使劲给它喂料,还必须把需要收录的页面尽量放在关键位置,比如首页.今天就着重分析下百度在收录方面的特点. 1.特别重视网站首页 不管是百度还是google,首页都是评价一个网站的重要参数,对于一般定期更新的大网站,百度对首页的光顾率都是非常高的,能够达到天天快照和首页文章秒收不是很难. 而对于更新量小的网站来说,就如seo博客,就会出现差别了.博客的更新

如何让百度快速的收录网站?

一.概述与分析 如何让百度快速的收录网站?这应该是很多新站长一直关心的问题,当然也有各式各样的回答,比如说原创,外链,友情链接--.等等,有的站几天就收录了,有的站却2个多月都没收录,那么到底是什么因素导致百度收录和排名有所差距呢? "内容价值!"--是的,你的内容对百度.用户的价值,是影响收录和排名的决定性因素!那什么样子的内容是有价值的呢?简单的说就是对用户有用的东西,用户会去搜索的东西,那么百度就能快速的收录,也能快速的给予排名.如果说百度不展示用户感兴趣的东西,那么大家就会去用

为什么排名稳定的网站收录却逐渐减少

笔者手上有两个网站都出现了一样的情况,关键词排名任然在百度第一名,但是收录却每天都在少,笔者百思不得其解,最后经过分析网站的所有收录页面与被删除的收录页面相对比,笔者发现了百度算法的新趋势. 百度对同一网站类似标题的内容进行了精简,这个网站是一个SEO博客,网站内容都基本上与当地的优化公司有关,其中标题有很多都是相似的,当时在写作的时候也没有注意这个问题,经过对比之后发现相似程度达百分之70以上的标题内容就会被删除一个,从这件事中站长朋友可以得到一个教训: 1.百度重视内容的标题拟写,相似度过高

如何分析外链从而做好网站排名

今天我要说的,并不是说大家去什么地方做外链,而是告诉大家,如何去有效的选择性的去做外链,从而不让自己的努力白白浪费,要让自己做的事情都对网站变得有价值,有意义.其实,前期我也发现了一个问题,初学seo的人都喜欢跟风,就是哪里人多就去哪里做,而不分析去那里做有什么意义,到底在那里做之后,会不会得到百度蜘蛛的爬却,从而认定它是一条有效的外链. 这个时候,分析的工作就变得很有意义,说实话,我觉得分析和统计的工作应该在你的工作内容中占有一定的比例,而不是充充忙忙的扫两眼就是.很多人都喜欢去看别人的帖子,