如何通过网站日志来寻找蜘蛛爬行规律

  对于各位站长来说,百度的收录是关心的重中之重。了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的。很多网站目前使用的都是虚拟空间,都能够提供日志。日志是指在网站根目录下的logfiles文件夹里面日期.txt文本文件有很多介绍通过http查看返回命令的那种办法来查看蜘蛛,这里就不介绍了。现在更多的网站是没有提供可以通过软件来查看的日志格式。更多的是类似下面的日志格式,如下:

  03:28:34 GET /goods.php 202.108.7.205 200 34696 390

  第一 03:28:34 访问时间

  第二 GET /goods.php 访问的页面 get表示获取

  第三 202.108.7.205 访问网站的源IP

  第四 200 成功访问

  第五 34696 390 表示记录的内容大小

  都是这种格式的日志如何去分析了,一个一个看的头都大了。网站的日志记录每天都有1M多,上千条记录岂不是会看都头晕眼花。

  注意了,告诉大家一个窍门。经过长期观察发现,百度的蜘蛛的来源服务器IP地址都是属于一个域下面的通个网段。什么意思了,就是全部都是以202.108开头的IP,IP地址都是类似于202.108.X.X。这个网段的IP地址是位于北京网通电报大楼,属于全国互联网核心骨干机房,现在此IP段已经绝迹了。那么调出你的日志,用ctrl+f查找一下有没有这个网段的IP。有的话就在查找一下访问的时间,那么就可以找出来百度蜘蛛访问你网站的时间规律了。对于更新内容的作用那是杠杠的啊。

  最后,www.521dyy.cn欢迎大家拍砖,绝对原创自己的心得。转载请留名,谢谢

时间: 2024-07-28 19:59:40

如何通过网站日志来寻找蜘蛛爬行规律的相关文章

搜索引擎蜘蛛爬行规律探秘之二:外链是否有时效性

  <搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接>写完距今天已经20多天了,本来想一直写下去呢,但是写完第一篇之后,忽然没有了思路.今天跟朋友们说起来了外链的时效性,也就是说外链会不会失效. 本文不再讨论理论相关的内容了,而是会举一些例子来证明第一篇文章,同时也说一下链接的时效性吧. 首先,外链所在页面被删除了,外链是否有效? 答案外链所在页面删除了依然是有效.证据如下:   我在博客中国的博客(可能是因为流量超标在2006年被删除了)早就已经被删了,但是百度依然有快照.今天看了下首页的快照

通过IP地址看网站日志寻找百度蜘蛛爬行规律

对于各位站长来说,百度的收录是关心的重中之重.了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的.很多网站目前使用的都是虚拟空间,都能够提供日志. 日志是指在网站根目录下的logfiles文件夹里面日期.txt文本文件有很多介绍通过http查看返回命令的那种办法来查看蜘蛛,这里就不介绍了. 现在更多的网站是没有提供可以通过软件来查看的日志格式. 更多的是类似下面的日志格式,如下: 03:28:34 GET /goods.php 202.108.7.205 200 34696 390 第

通过网站日志来寻找百度蜘蛛爬行规律

中介交易 SEO诊断 淘宝客 云主机 技术大厅 对于各位站长来说,百度的收录是关心的重中之重,因为网站大部分流量都来自百度. 因此,了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的. 很多网站目前使用的都是虚拟空间,都能够提供日志.从虚拟主机后台登录,点击下载访问日志. 日志是指在网站根目录下的logfiles或W3SVC文件夹里面日期.txt文本文件 更多的是类似我的网站建站学习网www.3915.net的日志格式,如下: 开始几行: #Software: Microsoft Lo

通过网站日志了解百度蜘蛛的认可度

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 相信大家对百度蜘蛛都很了解,站长们都是欢迎蜘蛛的光临,但是否真正了解百度蜘蛛的来意,相信这点大家才是非常关心的话题了,现编者根据以往观察网站运行的日专给大家分享一下,不对之处还请指正. 一.整点式爬行,这种爬行争对新站或即将要被降权的网站,指的是每天24小时,每小时百度蜘蛛都会对你网站首页进行爬行,并且爬行数量基本一致.这是新站当中最常见的,

查看网站日志中搜索引擎蜘蛛的来访记录的方法

摘要: 对于很多做网站的新手来说,都没有经过系统地授课进行网络技术和建站知识学习,做网站都是靠自学,遇到难题在论坛发帖提问,更不会懂得网站优化,对于较基本操作通过网站日志 对于很多做网站的新手来说,都没有经过系统地授课进行网络技术和建站知识学习,做网站都是靠自学,遇到难题在论坛发帖提问,更不会懂得网站优化,对于较基本操作--通过网站日志看蜘蛛来访情况都不知到哪里看,怎么看.前两天看到很多人发帖提问,回复者的答案却比较精炼,不具体,提问者还是云里雾里的,现我就以自己的网站来系统地操作一次,提交给大

分析网站日志中百度蜘蛛返回304状态码的情况

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 最近遇到一个网站被百度蜘蛛抓取首页后大量返回304状态码的问题,以前遇到过301和302,就是没了解过304,刚好可以对这个情况进行一下分析和观察,以便比较深入的了解该问题的出现以及应对之策. 百度百科对304状态码是这么解释的:如果客户端发送了一个带条件的 GET 请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有

搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎蜘蛛,对于我们来说非常神秘,本文的配图使用蜘蛛侠的原因就在于此.当然我们也不是百度的也不是Google的,所以只能说探秘,而不是揭秘.本文内容比较简单,只是给不知道的朋友一个分享的途径,高手和牛人请绕行吧. 传统意义上,我们感觉搜索引擎蜘蛛(spider)爬行,应该类似于真正的蜘蛛在蜘蛛网上爬行.也就是比如百度蜘蛛找到一个链接,顺着这

从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容

经常有站长抱怨高权重网站采集了自己辛辛苦苦的原创内容,导致自己的原创变成其他网站的了,今天我通过实例和大家分享如何解决这个问题. 大家可以想象一下现实生活中知识产权的认定,最简单的情况,如果A在杂志上发表了一篇原创文章,B看到后不加改变的抄袭并发表到其他杂志,A要起诉B者,法院很容易根据作品发表时间来判断B抄袭了A,因为A发表作品在先(如果B经过修改等二次加工手段再发表,那就要依据法院的鉴别和双方的证据了),回到网络世界,特别是回到由百度制定规则来判别谁是原创的体系中,假定百度已判定发表于两个不

浅析新站如果引诱蜘蛛爬行网站

新站刚上线没有权重,没有更新的规律,没有稳定的用户,更没有强大的外链.这是站长们就想着要如何增加网站的权重,怎么去吸引蜘蛛爬行网站.一个网站做的再好,如果没有蜘蛛来爬行网站,搜索引擎不收录网站也是不容乐观的事情.那新站如何吸引蜘蛛爬行网站? 首先:保证网站更新频率.新站一上线就要开始给网站增加原创的内容,很多站长觉得新站上线,网站没有内容,可不可以一天给网站增加几十篇文章,这样搜索引擎收录的不就多了吗,新站上线搜索引擎会不会收录还是一回事,增加这么多的内容是原创还好,要是不是原创搜索引擎会认为这