我给新建的一个垃圾站安放了监测搜索引擎蜘蛛爬行记录的代码,通过2天的监测发现百度蜘蛛最懒,谷歌收录最快。
大家可以查阅这里监测搜索引擎蜘蛛爬行记录的数据:http://www.38rl.com/robotslogs.txt。自从07月29日监测开始,谷歌蜘蛛、雅虎蜘蛛、MSN蜘蛛、百度蜘蛛都有爬行的记录,(事先我已向各大主要搜索引擎提交了这个网站的),但是百度蜘蛛自从07月29日爬行后,就再也没有来过,而其它几大搜索引擎的蜘蛛都来过许多次。由此可见百度蜘蛛最懒了。
另外,我分别在几大搜索引擎中通过site:www.38rl.com的方法查询网站的收录情况,谷歌已经收录了9个页面,百度只收录了首页,其它几个搜索引擎收录的页面数不等。据此可见谷歌收录最快,百度收录速度最慢。
看来,与国外著名的搜索引擎相比,百度在运行效率方面确实有一定差距。但新建站的朋友也不必着急,了解这个规律以后,专心充实网站内容,各大搜索引擎迟早会来光顾的。
最后,我将监测搜索引擎蜘蛛爬行记录的代码,与大家分享一下,请看http://www.38rl.com/uploads/sebot.txt。
这个文件的代码挺简单:各大搜索引擎的蜘蛛爬行程序都有自己的标识符,例如谷歌的是googlebot,百度的是baiduspider,它们可以通过查询_SERVER变量中的HTTP_USER_AGENT参数来获取,再结合HTTP_REFERER记录下URL的来源,最后用nowtime()函数取得当前的系统时间,就形成了一条简单的擎蜘蛛爬行记录。
看不明白的朋友可以跳过,其实代码不是我写的,许多年前网上就有人共享出来了,我们重点学会如何使用就可以了。
请大家把我上面贴出来的sebot.txt文件另存为sebot.php,当然你可以任意给它取个名字,例如123.php或者aaa.php都行,只要保证扩展名是php,让它能够正常执行即可;然后上传到你的网站程序的模板目录中(例如Wordpress的是/wp-content/themes/ThemesName目录);最后在你的模板文件中调用它,例如在Wordpress博客中,你可以在footer.php文件中添加代码。
接下来就是等待搜索引擎蜘蛛到你的网站来爬行了,爬行的结果记录在网站根目录的robotslogs.txt中,你直接打开http://www.YourDomain.com/robotslogs.txt就能看到了。当然你也可以修改robots.php文件的第50行,把robotslogs.txt换成任意你想要的名字。
通过一段时间的监测,你就可以发现搜索引擎蜘蛛在你的网站上爬行的频率了,一般来说,蜘蛛爬行得越勤快越好,我有个垃圾站,谷歌的蜘蛛一天会来爬行几十次。另外,如果你的robotslogs.txt记录的内容太多了的话,你可以清空它重新开始记录。