其实泉州seo孤藤之前看过昝辉老师的《se实战密码》,里面讲到的robots.txt只是,个人感觉还是很详细的,也没研究过大型网站都是怎么设置的,今天想起,来分析下国内微博新浪、腾讯、搜狐、网易4大平台各自的robots.txt文件的设置,robots怎么写。
1.新浪微博
说明:允许所有搜索引擎抓取
2.腾讯微博
说明:允许所有搜索引擎抓取,除了一些系统文件。而且加了两条网站地图,一个是认证会员个人微博主页底地址,另一个是微博留言的地址。xml格式网站地图有个限制是一个地图文件里最多只能罗列5万个url,一个文件最大不能超过10m,超多的话可以新建个网站地图放,孤藤特意去查了下 腾讯微博的第一个xml地图,地图文件里有41000左右的url,2m多大。过段时间再看看腾讯是不是也是新建网站地图处理过多的url的。
3.搜狐微博
搜狐微博是最有趣的,因为前几个月兴起的快速关键词排名借助的就是搜狐微博本身的高权重,后来传说搜狐微博屏蔽了百度蜘蛛,让我们来看看这robots.txt文件。第一个部分语句是允许百度蜘蛛抓取,第二个部分语句是允许搜狗抓取,第三个部分语句是禁止所有搜搜引擎抓取。
而根据百度官方的文件说的——需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。
因此最后一部分语句对百度和搜狗是无效的。也就是说搜狐微博只允许百度和搜狗来抓取页面。
这边还有一点是,孤藤发现搜狐微博的robots.txt差不多在6月份左右时间做了修改,屏蔽出百度、搜狗外其他搜索引擎的抓取,但是其他搜索引擎确实照样索引,收录量也不断在增加,不同的是 谷歌、有道、bing仅仅只是索引,没有收录。 搜索似乎不支持robot文件还是怎么,照样收录有快照、提取描述文字。雅虎也照样收录,只是快照看不到,不能判断是否是仅仅索引。
4.网易微博
网易微博找不到robots文件
再来看看四大博客平台的收录情况:
|
百度总收录 |
百度当日收录(半天) |
备注 |
新浪微博 |
870万 |
6400 |
pr8 允许所有搜索引擎抓取 |
腾讯微博 |
122万 |
1万500 |
pr6 允许所有搜索引擎抓取 |
搜狐微博 |
2580万 |
1580 |
pr6 允许百度、搜狗抓取 |
网易微博 |
53万7000 |
792 |
pr6 没有设限 |
从上面可以看到腾讯微博的收录日收录量远超其他微博,日收录排名为 腾讯微博>新浪微博>搜狐微博>网易微博
今晚也是心血来潮,想说说这几个微博,该休息了,睡个几个小时,明早还的爬起来。本文泉州seo孤藤(www.gutengseo.com)个人愚见,欢迎拍砖。