同样的一本搜索引擎原理书籍,不同的人可能有不同的理解程度,而且一些以前的seo理论虽然已经根深蒂固了,但是在目前的seo情况下已经不太实用了,比如一个收录问题。其实想准确了解索引、收录、site这些之间的关系,我们可以从基本的原理出发去考虑一些问题。
从搜索原理上讲,蜘蛛先抓取到一个网页的URL,然后对这个URL对应网页的内容进行下载、分析,对于符合其质量标准或有一定用途的网页进行索引,把索引后的网页放入索引数据库中。这时候索引库内的网页有些具有用户检索价值的,有些是具有搜索引擎自身的检索价值的,对于对用户有检索价值的被索引的网页,会进行输出,也即是我们说的收录。而对仅仅有搜索引擎自身检索价值的网页可能并不输出,仅仅有一定的索引量而没有输出结果数,因此我们可以看到很多时候收录量会比索引量低很多。
站在搜索的角度而言,一个网站的网页数量有时候是大于目前所拥有的网页数量的。举例来讲,比如一个站有100个网页,对于用户或者站长而言,是100个网页,但是这100个网页可能进行了数据更新,网页改变等多个操作,不同版本或许能满足不同的需求,(因此我们也可以看到很多时候一个网页有不同的快照。)从这个角度而言,在搜索的眼中一个网站的网页数量是可以大于网站目前所拥有的输出网页数量的,特别对于频繁修改的网站或者URL不规范的站点。同时,站在搜索引擎的数据角度而言,其数据量可能由历史数据和更新数据等组成的,因此site相关结果值也大于site结果数。
依据上面的说法,我们把四者的关系重新梳理下:
索引量和收录量:索引量是所有对搜素有价值页面的集合,这些页面有些对用户有价值,把这些页面输出出来就是收录量(不同的人可能定义不一样),有些页面仅仅对搜索引擎自身有价值,这些页面数量就造成了索引量高于收录量的数值。
site结果数与相关结果值:我们很多时候会看到site结果一般如下图:
我们看到一个问题,相关结果数为215,而site结果仅仅为40左右,两者差距甚大。造成期差距的原因可能是有多个因素造成的,比如有些网页可能被重复计算了,有些网页虽然被收录了(检索价值是有的)但是页面质量不高(网页价值和检索价值不是一码事,网页检索价值仅仅是网页价值的一个基础而已,而网页价值是多个因素组成的。)
同时我们也要知道,蜘蛛毕竟是机器,而且互联网上很多网站的网页数量在不同地进行着变化,一直有新的网页产生和老网页的删除,我们某个时候看到的值是一个大体准确的值,而并不是100%准确的。
从包含关系而言,这四者的关系大体如下:
索引量大于收录量,收录量大于site结果数,而相关结果数是大于site结果数。不过在一般情况下,我们个人建议采用下面的方法简化这些关系:
1,百度索引量=百度收录量,因为收录量其实是无法看到的,site结果数和相关结果值也无法代表收录量。
2,site直接结果数对seo意义和价值较大,除了可以用site结果数来判断一些页面价值外,在收录上我们建议提高site结果数和百度索引量的比值、百度索引量与整个网站网页数量的比值,从这2个比值入手进行seo优化和操作。至于其中纠纠结结的概念这类的,直接无视就好了。起源seo论坛http://www.wocaoseo.com/原创,转载请注明。