从4大微博平台的robots文件设置学到的

  其实泉州seo孤藤之前看过昝辉老师的《se实战密码》,里面讲到的robots.txt只是,个人感觉还是很详细的,也没研究过大型网站都是怎么设置的,今天想起,来分析下国内微博新浪、腾讯、搜狐、网易4大平台各自的robots.txt文件的设置,robots怎么写。

  1.新浪微博

  


 

  说明:允许所有搜索引擎抓取

  2.腾讯微博

  


 

  说明:允许所有搜索引擎抓取,除了一些系统文件。而且加了两条网站地图,一个是认证会员个人微博主页底地址,另一个是微博留言的地址。xml格式网站地图有个限制是一个地图文件里最多只能罗列5万个url,一个文件最大不能超过10m,超多的话可以新建个网站地图放,孤藤特意去查了下 腾讯微博的第一个xml地图,地图文件里有41000左右的url,2m多大。过段时间再看看腾讯是不是也是新建网站地图处理过多的url的。

  3.搜狐微博

  


 

  搜狐微博是最有趣的,因为前几个月兴起的快速关键词排名借助的就是搜狐微博本身的高权重,后来传说搜狐微博屏蔽了百度蜘蛛,让我们来看看这robots.txt文件。第一个部分语句是允许百度蜘蛛抓取,第二个部分语句是允许搜狗抓取,第三个部分语句是禁止所有搜搜引擎抓取。

  而根据百度官方的文件说的——需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

  因此最后一部分语句对百度和搜狗是无效的。也就是说搜狐微博只允许百度和搜狗来抓取页面。

  这边还有一点是,孤藤发现搜狐微博的robots.txt差不多在6月份左右时间做了修改,屏蔽出百度、搜狗外其他搜索引擎的抓取,但是其他搜索引擎确实照样索引,收录量也不断在增加,不同的是 谷歌、有道、bing仅仅只是索引,没有收录。 搜索似乎不支持robot文件还是怎么,照样收录有快照、提取描述文字。雅虎也照样收录,只是快照看不到,不能判断是否是仅仅索引。

  4.网易微博

  


 

  网易微博找不到robots文件

  再来看看四大博客平台的收录情况:

 

 

百度总收录

百度当日收录(半天)

备注

新浪微博

870万

6400

pr8 允许所有搜索引擎抓取

腾讯微博

122万

1万500

pr6 允许所有搜索引擎抓取

搜狐微博

2580万

1580

pr6 允许百度、搜狗抓取

网易微博

53万7000

792

pr6 没有设限

  从上面可以看到腾讯微博的收录日收录量远超其他微博,日收录排名为 腾讯微博>新浪微博>搜狐微博>网易微博

  今晚也是心血来潮,想说说这几个微博,该休息了,睡个几个小时,明早还的爬起来。本文泉州seo孤藤(www.gutengseo.com)个人愚见,欢迎拍砖。

时间: 2024-10-03 18:43:03

从4大微博平台的robots文件设置学到的的相关文章

两大微博平台报告称共青团成政务微博最大团体

随着微博的快速发展,政务微博已成为各级政府建设信息化政府的重要组成部分,其中共青团组织更是以其年轻姿态走在政务微博的最前列. 日前,继腾讯与武汉大学共同发布<共青团微博发展报告>后,新浪紧随其后也发布<2012年度共青团微博发展报告>.两份报告都显示:共青团微博已成为政务微博最大团体. 腾讯<报告>显示:截止到2012年10月29日,腾讯微博平台上共青团微博用户达16662个,其中各级团组织机构账号11567个,各级团组织工作人员个人账号5095个:而新浪数据显示截至2

关于织梦DEDECMS robots文件设置的想法

用织梦DEDECMS建站的站长会发现,DEDECMS自带的robots.txt文件设置很简单(开发者基于每个网站的目录结构和优化目的不同的考虑),并不能完全满足网站的优化要求,那怎样才能结合自己网站的情况,做好robots.txt优化呢?以下介绍一点自己的想法,仅供参考. 适用于未伪静态的DEDECMS网站. User-agent: * Disallow: /dede 管理后台目录,需要改名,具体设置后面具体讲 Disallow: /include 程序核心文件目录 Disallow: /mem

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

6月份分享按钮平台排行 腾讯微博成为第3大分享平台

中介交易 SEO诊断 淘宝客 云主机 技术大厅 根据bShare公布的6月份社会化分享按钮的相关数据,10大分享排行榜出现了变化.QQ空间及新浪微博仍然是一.二名,腾讯微博成为前三甲成员.除此之外,腾讯朋友也不约而同的再往前一步,成为第8名.bShare并另外提供了一份各类型网站的平均分享数据,显示出分享的绩效还是跟内容性息息相关,视频.图片还是分享来源的主流内容. 图例一:2011年6月份分享量排行榜 随着新浪及腾讯微博不约而同的在各大媒体打起广宣战,微博也越来越火热.虽然QQ空间仍是以惊人的

微博平台的RPC服务化实践概述

2014年第一分钟,新浪微博的发布量以808298条再次刷新记录,第一秒微博发布量相较去年提升55%.(数据来源:新浪科技 )这是微博平台 RPC 框架 "Motan" 上线后第一次抗峰值,整体表现平稳,基本达到最初的"应用方无感知"的目标. 在RPC服务化这个事情上,微博平台不是第一个吃螃蟹的:早的有亚马逊和eBay等国外先驱,近的有Twitter的finagle,淘宝的dubbo等等,网上各种公开的资料铺天盖地.另一方面,单纯的RPC调用功能实现,从技术上看其实

DockOne微信分享(九十九):海航生态科技舆情大数据平台容器化改造

本文讲的是DockOne微信分享(九十九):海航生态科技舆情大数据平台容器化改造[编者的话]海航舆情监控系统能够为海航集团内部提供监控网络舆情信息,对负面信息.重大舆情及时预警,研判具体舆情或者某一舆情专题事件的发展变化趋势,生成图标报告和各种统计数据,提高舆情工作效率和辅助领导决策.然而,随着项目的持续运行,许多问题逐渐暴露出来,为了解决这些难题,对整个项目重新规划设计,迁移到Hadoop.Spark大数据平台,引进持续化Docker容器部署和发布,开发和运营效率得到显著提升. 一. 舆情平台

海航生态科技舆情大数据平台容器化改造

文章介绍了海航生态科技舆情大数据平台的容器化改造经验,包括初期技术架构.应用容器化.架构迁移.持续发布与部署. 海航舆情监控系统能够为海航集团内部提供监控网络舆情信息,对负面信息.重大舆情及时预警,研判具体舆情或者某一舆情专题事件的发展变化趋势,生成图标报告和各种统计数据,提高舆情工作效率和辅助领导决策.然而,随着项目的持续运行,许多问题逐渐暴露出来,为了解决这些难题,对整个项目重新规划设计,迁移到Hadoop.Spark大数据平台,引进持续化Docker容器部署和发布,开发和运营效率得到显著提

如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+.这对Hadoop/Spa

省时省事省力 巧用阿里ECS D1构建大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键.   为了让用户以最简便地方式享用阿里云全球云资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,阿里云在云栖大会·成都峰会上正式推出了Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,充分满足泛互联网行业.金融.电商.政企等行业等搭建大数据存储与计算分析平台的要求,真正意义上做到了"省时省事省力