对于每一个优化人员来说都需要具备一定的分析能力,分析用户的搜索行为、分析站点的数据流量等等。只有合理的分析好这一些数据才可以更好的制定我们的优化策略。其中在我们的站内分析中不可缺少的一项就是分析搜索引擎蜘蛛的抓取爬行行为。搜索引擎蜘蛛是我们肉眼所不能看到的,我们要如何分析它的爬行行为呢?我们可以通过分析我们站点的IIS日志。
一:那么从分析IIS日志我们可以从我们的站点上得到什么信息
1:在外链的建设中我们知道网站上的每一个外链都是搜索引擎蜘蛛进入我们网站的入口,对此我们可以观察日志上的蜘蛛的造访情况,就可以从另一角度查看我们的外链是否能够更好的吸引到蜘蛛,以此制定一个更加合理的外链建设策略。
2:站点的空间问题是很多站长棘手的问题之一,站点打不开很可能使我们的站点一夜回到解放前。那么对于我们的站点来说如何最快最早的了解发现问题呢。对此同样可以通过分析该日志上的搜索蜘蛛爬行情况,因为站点空间除了什么问题的第一反应就是搜索引擎蜘蛛。
3:通过该日志我们也可以分析蜘蛛对于页面内容的爬行情况。了解搜索引擎更加喜欢我们站点上的什么内容。我们可以根据这些数据在内容上的布局或者微调,是搜索引擎更加的爱上我们的内容。
二:如何获得我们站点的IIS日志及IIS日志的设置
首先,我们的站点空间需要支持站点的日志下载。对于这点我们在购买站点空间的时候可以先与空间商进行咨询,是否支持该功能,如果支持的话,一般日志文件置于weblog文件中,我们可以直接FTP到本地。对于IIS日志的记录设置,笔者认为一般如果站点的内容较多,结构较复杂的可以设置成一小时生成一次,而内容较少的话可以设置成一天更新一次,这样可以避免我们的IIS日志出现信文件过大的问题。
三:如何分析我们站点的IIS日志
1:对IIS日志文件的拆分分析
我们使用FTP把日志下载本地后,可以通过记事本打开文件,同时搜索主要的搜索引擎蜘蛛名称,其中的百度的蜘蛛名为BaiduSpider、谷歌的蜘蛛名为Googlebot 。如下图所示
百度蜘蛛
谷歌蜘蛛
我们可以分段进行分析
2012-04-13 06:47:10 是指蜘蛛爬行该页面的具体日期和时间
116.205.156.37 这个地址是指我们站点所在的IP地址
GET 代表事件,跟在这个参数后面的是指蜘蛛所爬行的页面,而“/”代表的是站点的主页。
220.125.51.130 这一IP是指搜索引擎蜘蛛的服务器的IP地址。当然这个IP地址并不一定就是真正的搜索引擎蜘蛛服务器的地址,因为有可能是有的人为了采集你的站点上的内容,而冒充搜索引擎蜘蛛来爬行你的站点,抓取你的内容。这种情况虽然没有什么大的影响,但是如果频率高的话将会消耗站点的资源。那么我们如何辨别呢?笔者分先给自己的一小方法。我们可以打开我们电脑的控制命令窗口。然后打入nslookup+IP地址的命令。如果是真的蜘蛛会有自己的蜘蛛服务器。我们就可以对假蜘蛛的IP进行屏蔽处理。如下图所示
真蜘蛛
假蜘蛛
2:上文我们提到GET参数后跟的是搜索引擎蜘蛛爬行的页面,我们可以根据这一信息分析搜索引蜘蛛对我们站点上什么内容更青睐,然后对我们的站点内容做相应的微调。
3:我们通过日志可以发现蜘蛛对于我们站点页面的爬行抓取是根据页面的权重的递减分等级的,一般顺序为主页、目录页和内容页。
分析是我们优化工作中一项必不可少的工作,而我们身边可利用的数据也很多。合理的利用好这一些数据相信会为我们的优化助力不少的。本文由淘宝皇冠店http://www.jgdq.org 独家供稿,转载请留链接,谢谢!