谈从iis日志中探寻搜索引擎蜘蛛活动痕迹

  在站点的优化过程中个并不是说所有的站点问题都可以直接从站长工具上得到信息,往往站长工具上得到的信息都是在站点出现问题后才能察觉到。作为一名SEOer,我们更需要学会站点的隐性信息。例如,这几天做的外链效果怎样?我们的内容那些方面更加容易受到搜索引擎蜘蛛的喜爱?搜索引擎蜘蛛对于我们站点的爬行积极度如何?等等,这些都是隐藏在站点内容部的一些关键信息。这些信息通过站长工具我们很难分析。而这些信息恰恰可以从我们的站点IIS日志上找到答案。

  一:为何IIS日志在分析站点隐性信息中如此重要

  1:借由该日记记录我们可以更加清楚的分析搜索引擎蜘蛛在网站上的爬行信息,这些信息包含有蜘蛛的爬行路线以及爬行深度。通过这一些数据信息,我们可以分析近期我们建设的外链效果如何。因为我们知道外链就像是引导蜘蛛爬行的蜘蛛丝,如果外链建设的好的话,蜘蛛爬行的自然而然频繁,而且我们可以记录下从哪一个“入口”进入蜘蛛的频率高。

  2:网站的内容更新与蜘蛛爬行存在一定的关系,一般只要我们更新稳定频繁,蜘蛛的就会爬行得更加的勤。对此我们可以借助日志中的蜘蛛来访频率对网站内容的更新频率做一个细调。

  3:通过日志我们可以发现空间存在的一些故障,这些故障可能是一些站长工具无法察觉到的。就比如近阶段很火的美橙空间因为技术员误操作导致空间屏蔽了百度了蜘蛛事件,假如站长们事先分析一下分析一下空间日志,或许可以发现这一错误。

  二:如何获得日志文件以及应注意的事项

  1:要获得该日志文件我们的空间需要有iis日志记录的功能,假如我们的空间有这一功能的话,一般该日志文件会记录在weblog文件夹中,我们可以直接从这一文件夹中下载我们站点的日志文件。

  2:在使用这一功能时我们需要注意日志的生成时间设置,笔者的建议是如果站点是一个小型的站点可以让它一天生成一次,假如是比较大的站点我们可以让其每小时更新,以免生成的文件出现过大的情况。

  三:如何分析解读蜘蛛行为

  我们可以记事本的方式打开我们站点的日志文件,使用记事本的搜索功能搜索百度和谷歌的蜘蛛,分别是BaiduSpider和Googlebot 。

  


 

  百度蜘蛛

  


 

  谷歌蜘蛛

  我们可以分段进行分析:

  2012-04-5 00:47:10 是在这一个事件点蜘蛛爬进了我们的站点

  116.255.109.63 这个ip是指我们的站点

  GET紧跟其后的就是蜘蛛爬行的页面,从这边我们可以了解近期我们的什么页面被爬行过。。

  220.187.51.144 这一IP搜索引擎蜘蛛的ip地址,当然这边就可能会出现真假两种地址。那么我们要如何识别这一个地址是真的蜘蛛还是伪装的呢?笔者本文就分享自己的一个小方法,我们可以打开命令窗口,在窗口中执行nslookup+这一个所谓蜘蛛的地址。加入是货真价实的蜘蛛,那么就会有自己的服务器,反之则是无法找到信息。

  

 

  真蜘蛛

  


 

  假蜘蛛

  那么为什么日志中会有伪造的蜘蛛呢?原因就是有其他站点伪造成假蜘蛛来爬行抓取你的站点内容。如果任由这些假蜘蛛横行的话,会对站点的服务器消耗造成一定的影响。对此我们可以使用这个方法找到并屏蔽他们,当然我们还需要细心处理,否则把真蜘蛛拒之门外就不好了。

  200 0 0代表的是网页正常的状态码,当然还有其他不同数值的状态码,如500表示服务器超时等等。我们可以借由这些状态码来分析站点空间近来的表现情况。

  我们可以分析日志文件中蜘蛛最常光顾的几个页面,记录下来,并且找到为何会受到蜘蛛青睐的内外部原因。

  作为站长大多数人可能比较熟悉那些直观的数据如流量、收录、反链等的分析,对于日志文件的分析可能较为生疏。但是日志对于站点却至关重要,希望本文能够帮助大家更好的分析日志文件。本文来自三面翻http://www.sanmianfans.com ,转载请保留出处。

时间: 2024-10-26 01:43:55

谈从iis日志中探寻搜索引擎蜘蛛活动痕迹的相关文章

WordPress博客如何记录搜索引擎蜘蛛爬行痕迹

WordPress博客记录seo/seo.html" target="_blank">搜索引擎蜘蛛爬行痕迹插件: 1.搜索引擎蜘蛛爬行记录器Spider Tracker插件可以记录百度.谷歌.雅虎.必应.搜狗.搜搜6种搜索引擎的蜘蛛爬行痕迹,并生成统计图表,可以清晰的看到,近6日的各种搜索引擎的蜘蛛数量,以及当日的哪些时间,蜘蛛来过站里,又抓取了哪些网址. 2.wp-log-robots 插件大小仅3KB,wp-log-robots是一个记录搜索引擎蜘蛛爬虫活动记录的W

再谈IIS日志中百度蜘蛛返回200 0 64的问题

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近我的站快照老是不更新,查看网站日志的蜘蛛访问,发现内页蜘蛛抓取都正常,唯独首页会出现蜘蛛返回200 0 64,要么就是301 0 64(因为www和没有www的做了跳转)于是我搜索相关资料并分析了该状态码,网上都众说纷纭,先总结一下大致的问题吧. 先说一下200 0 64状态码的意思. 200表示正在访问该页面了,但出现64说明抓取的大小

PHP统计nginx访问日志中的搜索引擎抓取404链接页面路径_php实例

我在服务器上有每天切割nginx日志的习惯,所以针对每天各大搜索引擎来访,总能记录一些404页面信息,传统上我只是偶尔分析下日志,但是对于很多日志信息的朋友,人工来筛选可能不是一件容易的事情,这不我个人自己慢慢研究了一点点,针对谷歌.百度.搜搜.360搜索.宜搜.搜狗.必应等搜索引擎的404访问生成为一个txt文本文件,直接上代码test.php. 复制代码 代码如下: <?php //访问test.php?s=google $domain='http://www.jb51.net'; $spi

iis 搜索引擎蜘蛛

一.IIS中网站的日志的设置. 打开IIS.选择所要设置的网站属性.弹出如下窗口:   "启用日志记录",勾选,选择"W3C扩展日志文件格式". 再次点击这里的"属性"按钮,常规选项里面,选择新日志计划为"每天",当然也可以选择其他,选择好保存日志文件的目录.   按照一般情况,设置到这里就可以记录日志了,但是有些主机无论如何都找不到搜索引擎爬虫的痕迹,类似于Baiduspider+怎么都看不到.这个时候我们就需要启用剩下的三

深入剖析搜索引擎蜘蛛工作对SEO的提升

搜索引擎蜘蛛是搜索引擎自身的一个程序,它的作用是对网站的网页进行访问,抓取网页的文字.图片等信息,建立一个数据库,反馈给搜索引擎,当用户搜索的时候,搜索引擎就会把收集到的信息过滤,通过复杂的排序算法将它认为对用户最有用的信息呈现出来.深入分析网站的SEO表现的时候,一般我们就会考虑搜索引擎蜘蛛的抓取质量,而其中能够帮我们优化网站可能会涉及到下面的几个蜘蛛抓取相关的概念: 1.爬取率:既定时间内网站被蜘蛛获取的页面数量. 2.爬取频率:搜索引擎多久对网站或单个网页发起一次新的爬行. 3.爬取深度:

合格的SEO应该会真正的IIS日志分析

在我们的优化之路中有一些问题一直困扰着我们,例如:我们发的外链是否起到效果?我们买的空间是否能够稳定?蜘蛛对我们的那些页面比较喜欢而对哪些不喜欢?蜘蛛什么时候抓取我们的网站频繁,我们需要什么时候更新内容?而这些问题其实我们可以通过我们的服务器IIS日志可以简单的分析出来,作为一个合格的SEO,真正的会分析IIS日志才可以而不是简单的去看状态码,在这提醒一下大家买空间的时候一定要买能够下载IIS日志的,不能下载的买都不要买,下面给大家介绍几点通过IIS日志分析出的网站问题.​ 一.IIS日志的重要

服务器日志中200 0 64如何改变为200 0 0

以前看过一篇关于 IIS日志中 有关200 0 64的文章,原文的地址我也记不清楚了.当时自己的网站也没有出现这样的字符,所以当时也不是很关心,后来,网站被拔毛.新站一直不收录.查找了很多原因,才得出了把64变成0的方法,这个方法我不敢保证对你们适用,但是我的站点确实是这样的. 先看看64在IIS中的解释.在DOS里输入 net helpmsg 64 出现指定的网络名不再可用,但是访问的话还可以访问啊.问题究竟是出在哪里呢? 这仅仅是IIS自身的http状态说明. 以前的文章中是这样解释的: 众

IIS日志文件分析及状态代码解释

当用户试图通过 HTTP 或文件传输协议 (FTP) 访问一台正在运行 Internet 信息服务 (IIS) 的服务器上的内容时,IIS 返回一个表示该请求的状态的数字代码.该状态代码记录在 IIS 日志中,同时也可能在 Web 浏览器或 FTP 客户端显示.状态代码可以指明具体请求是否已成功,还可以揭示请求失败的确切原因. iis默认的日志文件在C:\WINDOWS\system32\Loghttp://www.aliyun.com/zixun/aggregation/19352.html"

沉缘seo:网站晴雨表iis日志(二)

看到很多朋友经常在问我的站都十多天了或者快一个月了,还没有被收录,是什么原因造成的,我的回答是蜘蛛每天来的次数是多少呢,对方回答的结果是不知道,可见iis日志很容易被大家忽略,但是往往容易被忽略的就是最重要的东西,我们在沉缘seo:网站晴雨表iis日志(一)里面探讨过怎么拿到iis日志,这里就看一下iis日志能告诉我们那些关于网站的信息. 第一:通过iis日志我们可以看到每天有那些蜘蛛来到我们网站,并且知道来的次数,爬行是否成功.只要看到蜘蛛每天关顾我们网站的次数,就可以分析出来蜘蛛是否喜欢我们