小议SEO的数据分析:如何改善网站收录

  距离上一篇SEO的数据分析已经过了好久了,最近觉得应该写一些实际点的内容看看SEO到底怎么做。 先明确一些基本点,一个网页被收录与否,有两个因素

  是否被爬虫爬过

  页面质量是否过关

  上一篇文章已经提过了收录率这么一个指标,很多网站都懒得去做这个指标,“我看看site的数据不就行了!”,事实上没有这个指标,很多工作就无从下手。从数据中找出问题,利用数据指导解决方案,分析数据验证工作成果。 最近看了《深入浅出数据分析》这个本,觉得不错,把数据分析的方法讲得很生动,建议有兴趣的从事数据分析的同学可以买本看看。 任何数据分析由,目标->分析->评估->决策,四个环节组成。

  目标:我们想看一下网站的收录情况如何,在SEO方面是否还有提高的机会。

  分析:收录情况什么算好什么算坏,是不是用一些指标来衡量?网站的收录情况是不是过于笼统,是不是应该细分下各个页面的收录情况?

  评估:于是我们需要下面一些数据

  网站的页面层级关系

  

 

  各个层级页面带来的SEO流量

  各个层级页面的收录情况如何

  

 

  SEO流量的占比可以从Google Analytics中过滤出来。

  页面数量可以从数据库获得,或者通过火车头or自制小脚本抓取统计。

  收录率可以将获取的页面通过工具进行搜索,火车头也可以。

  这边广告下zero的工具:http://www.gnbase.com/forum.php?mod=viewthread&tid=11468&highlight=%CA%D5%C2%BC%B2%E9%D1%AF

  问题立马凸显!

  1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此!

  

 

  产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内容的问题,本文中先不管它了。

  决策:我们的结论是立刻展开行动对目录页面进行收录的优化。

  看到这边,似乎刚开始的目标:“通过优化收录提升流量”

  演变成了新的目标:“如何提高目录页面的收录量”

  这边能不能再次通过数据分析的方法进行SEO呢?

  答案是肯定的!

  我们再来重新走一遍 目标->分析->评估->决策 的过程

  目标:提高目录页面的收录量

  分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行过,网页的质量是不是过关。

  1. 关于爬虫的情况,我们需要分析日志,才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。

  2. 由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的:

  已被爬行的页面数量/已被爬行并且被收录页面数量

  来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,那至少说明这套页面的内容搜索引擎还算认可。(实际情况远比这个复杂,而且收录后也有可能因为质量问题被删除,但总比什么参照都没有要好,对吧!)

  评估:(敏感信息用编号代替,均为真实数据)

  先看一下爬虫日志的情况,通过Shell脚本,我们可以分析出。

  目录总计被爬行的次数为13000次左右

  不重复的目录爬行次数为5500次左右

  频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。

  其余频道下的目录被抓取的覆盖率不到30%

  

 

  不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只要你把数据不断的细分,细分,再细分,总会观察出一些端倪的。

  关于日志分析,不要迷信任何的日志分析软件,那都是给懒人用的,自制脚本+Excel才是王道,可以拆分显示出任何你想要的数据,当然,甚至可以连Excel都不要。

  然后,我们统计了一下被抓得最频繁的频道A和频道B,目录页的收录率

  

 

  频道A和B是很让人放心的,说明页面质量没问题,但是余下的收录情况就让人比较担心了。

  决策:通过上面的数据评估,我们已经得到了如下结论。

  页面质量并不是影响收录的原因。

  频道A,B的抓取量异常的高,通过调查了解,原来是首页上的目录页,显示的全是频道A下的目录页,首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源,权重也非常高。

  除了A, B频道,其他频道的抓取情况不容乐观,抓取入口太少,太深,进而影响了收录情况。

  很明显,现在频道A从站内的角度来说太强大了,必须进行一些“劫富济贫”的运动来降低频道A的抓取量,转移到其他频道中去。同时,需要给爬虫提供更多的入口抓取频道页。

  现在问题变得清晰起来,我们开始把工作分成两部分:1.提供更多的入口 2.将资源平分给各频道而不是集中在少数几个频道上。

  提供入口工作:

  1.把目录页的URL制作成sitemap。提交给搜索引擎,并且将其设置为比较高的抓取权重。

  2.完善面包屑导航,将面包屑导航划分得更加细致,以提供更多入口

  3.在其他产品中推荐目录页

  资源平分工作:(一些概念:任意页面都有可能成为爬虫入口,百度爬虫抓取深度有限,页面相对入口越浅,被抓取的概率越高。)

  1.原先首页指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首页进入的爬虫,全部抓取到频道页,通过频道页再进入目录页(其实这个不算太重要)

  2.原先频道页指向自身的产品页,将其全部nofollow(确保从频道页入口的爬虫,最大程度的抓取目录页)

  3.从目录页返回到首页的链接,将其全部nofollow。

  4.减少一些页面上无关链接。(什么情况下这么做都是非常有效的。)

  现在可以开始动手了。。

  成果

  这么做到底有什么效果呢,我们来看看修改后1个月后的数据。

  

 

  目录页的收录率提高了100%!

  产品页的收录率也有一定程度的提高,这是归功于目录页对于产品的良好展现。

  目录页的SEO表现:

  SEO流量占比上升了15%

  增长10%的到访关键词数量(新页面的收录)

  SEO流量增长了50%以上。(包含一些季节因素)

  备注:

  1.除了收录,排名也是问题,可以同步关注。

  2.对于频道A这样特殊情况,甚至可以对其进行全屏蔽,但是技术上实现起来会略微麻烦。

  3.百度对nofollow的支持据说很混乱,有认识百度内部人士可以帮忙问一下。

  4.有问题可以留言~

  作者:夜息 http://www.imyexi.com/?p=575 欢迎转载,请保留出处

时间: 2024-09-19 20:29:05

小议SEO的数据分析:如何改善网站收录的相关文章

SEO数据分析:如何改善网站收录

搜索引擎做为网站流量的重要来源,网站的收录量自然是大部分网站运营人员关心的问题.先明确一些基本点,一个网页被收录与否,有两个因素:是否被爬虫爬过页面质量是否过关之前提过了收录率这么一个指标,很多网站都懒得去做这个指标,"我看看site的数据不就行了!",事实上没有这个指标,很多工作就无从下手.从数据中找出问题,利用数据指导解决方案,分析数据验证工作成果. 最近看了<深入浅出数据分析>这个本,觉得不错,把数据分析的方法讲得很生动,建议有兴趣的从事数据分析的同学可以买本看看.任

大中型网站SEO优化中如何做好网站收录

在这里墨明棋妙所说的中大型网站通常是指网站内容页面数量在10万--无限数量之间的网站.通常中大型网站和小网站的SEO优化是有着很大区别的.小网站通常期望通过个别页面少数关键词带来流量,而其他页面仅仅做形象宣传与产品展示以及其他信息与交易之用.而中大型网站则需要通过更多的页面和大量的关键词获取搜索引擎流量,在此初衷下,网站页面的收录数量提升往往显得必要. 在这里墨明棋妙分享一些中大型网站页面收录提升的常用方法与技巧,期望能够对大家产生一定的帮助.在中大型网站的SEO过程中技巧与方法多样,也希望大家

百度seo常用的工具之网站收录和反链查询工具

摘要: Seoer每天有很多的事情要去做,要写原创,要做外链,还要做图片,每天的事情很多,那么经常使用一些seo工具,可以为正常工作节约时间,一定程度上甚至可以给网站优化或者网站的 Seoer每天有很多的事情要去做,要写原创,要做外链,还要做图片,每天的事情很多,那么经常使用一些seo工具,可以为正常工作节约时间,一定程度上甚至可以给网站优化或者网站的排名带来直接影响.笔者是国内的企业站,主要做的是百度seo,下面笔者就介绍一些百度seo常用的工具: 一.网站收录和反链查询工具 主要有站长之家和

SEO容易忽略的环节—网站收录

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站收录,是网站进行SEO的基础. 在网站的收录过程中,基本没人对这一环节进行专门的操作,只要在搜索框中输入site命令不为空即可.然而网站到底收录速度如何,收录量占网站总项的比是多少,很少引起SEOer的重视. SEO一直重视"内容为王".但是,即使再好的内容在不被收录的情况下,所做的一切均为无用功.而在内容发布到网站之

还原SEO过程:记录一个网站收录的前前后后

最近在A5上看到了很多关于淘宝客的项目,也看了很多站长的分享,感觉它是一个非常有潜力.有竞争,同时灵活性也非常强的行业,所以自己就购买了域名并且购买了虚拟主机,开始了我的淘宝客之路.几个网站到现在已经半个多月,现在排名最好的已经到首页,从收录到排名,让我又一次见证了SEO手法与百度的特点,今天和新手站长们分享一下最近的记录,看看一个网站想要收录并且获得排名都会经历些什么. 保持各方面的持续稳定 第一要保证网站各个方面的持续稳定,请注意,是持续稳定.这次我做淘宝客,选择的关键词也都不是很难,主要目

seo优化-淡baidu对网站收录的问题

第一:刚开始作好站上传到互联网上,然后不断的加信息一般它先放于缓存过一个星期大更新将会收录,在这期间一般要原创和高伪原创baidu才会收录,否则很难收录. 第二:在刚开始baidu对收录一般只是收录一页或而更多的页面这个很难测定.而要过一星期baidu大更新就开始收录更多的页面,首页是收录的内页页面.然后进一步收录的是频道和栏目页面. 第三:收录页面也发生了很大的变化,以前是收录就一次性收录.第一种:现在不同是先放入缓存和互联网上的一些网站内容作比较是否放出收录.第二种:先收录内容你可以用sit

八大要点成功提升网站收录

每天和别的站长讨论很多问题,最近发现很多站长都抱怨自己的网站收录太低.这些问题其实是SEO新手遇到的常见问题,网站首页不收录,新闻页.产品页长期不收录,网站权重长期得不到提升等等.小编整理出下面八大要点来为大家解决这个问题. 一.网站内链结构处理 作为网站内部的交通枢纽--内链,其对于蜘蛛来到你网站后面的爬行路线很重要.因为网站内链是引导蜘蛛前进的路径,是页面曝光的唯一通道.所以内链建设一般是改善网站收录的先决条件. 二.产品内容处理 这一点做法的目的是让你知道网站被收录的目的本身就是其内容.页

SEO老生常谈:提高网站收录和排名全攻略

现在网上有很多关于提高网站收录和排名方法的文章,大家都写得挺好的,而且关于这一问题更属于老生常谈.只不过对于很多网站SEO优化的新手来讲,一篇篇地看都太费时费力了,下面是郑州做网站公司_乐之人科技总结的一份简明版的提高网站收录和排名的方法全攻略,请大家参详,希望对大家有所帮助. 一.站内优化:做好内功,更需要注意保持站内权重的集中. 1.网站标题.无论是网站title还是内容标题,最好都适时体现出关键词,注意关键词分隔符号,例如百度一般用[_]或[丨].谷歌用[,]或[-]或空格.关键字与主标题

刘俊:为什么网站收录外链接数量领先但seo排名落后

最近一个朋友三天两头都在反复问我一个问题,就是他手上一个站排名一直在某个关键词第二名,第一名那个站收录才几百,外部链接也才几百,而他自己的那个站收录一千多,外部链接一千多.他感觉百度很不公平,我每次在他问我这个问题的时候,正好都因为种种原因没有时间详细回答,今天就这个话题详细写一篇解答性质的文章. 网站排名的唯一因素只是收录数量和反链接数量么? 首先提出一个问题,网站的排名唯一的因素只是网站的收录数量和反链数量么?很明显这个是不对的,网站的收录总数和反链总数确实是网站排名的重要因素,但是不是唯一