利用“GOOGLE抓取”测试Robots书写正确性

  利用GOOGLE管理员工具测试Robots.TXT 与 页面内容抓取,GOOGLE管理员可以说是网站与GOOGLE间接沟通的工具,虽然G.cn现在已经移民、导致使用GOOGLE时会经常出现搜索错误或超时问题,但是GOOGLE目前所发布出来的工具无不是最权威的工具(Google Analytics 、Google Trends、Google adwords、Google管理员工具)、尤其是“Google Analytics ”、“Google管理员工具”,一个是分析工具最牛B的工具(小向个人认为),一个是网站管理必备工具之一,可能有些朋友们不是这么认为,但是这二款工具帮了小向很多忙!

  百度从发布“百度站长指南”时,就在统计/投票问用户喜欢什么类型的站长工具,但是现在票投了、统计也做好了,可是工具却迟迟不发布,有句话说的好“给了别人希望,却又让人失望”,“百度站长指南”不是这样的吗、等了多久、三个月有吧,但后来了发布了、但是又有多少人对这个抱有“希望”的东西,最后却失望而归。Google管理员工具(使用Google 网站管理员工具提高流量 Google 对网站索引编制的统计、诊断和管理,包括 Sitemap 提交和报告。欢迎使用一站式网站管理员资源,它可以回答您有关抓取和编制索引的问题,向您介绍改善和提高网站流量的产品和服务,从而增进您与访问者之间的联系。)这是一段对GOOGLE管理员的描述,其中讲述了 站索引编制、Sitemap 提交、网站抓取、网站诊断等网站相关问题处理,我们今天只对GOOGLE抓取来做讲解!

  曾“国平大哥在博客中发表过一篇文章,说过 “Google webmaster tools " 就是 "Google Search Appliance " 的缩小版,而 GSA就是一台把google整个硬件和软件打包在一起的服务器。这台服务器就是一个小型的google搜索引擎,(虽然DJ小向没有亲目过,但知道啊里巴巴内部是有台这个样的服务器)

  

  对于“GOOGLE管理员工具里 — 实验室 — 像Googlebot一样抓取” 不知道大家了解过没有、而有多少朋友把这个功能灵活掌握了、记得以前在SEO学习网博客中、介绍过一篇有关“GOOGLE抓取工具”!(通过“像 GOOGLE 一样的抓取”,您可以查看到网页对GOOGLE的确切效果)

  我们通过点击抓取,然后生成GOOGLE引擎抓取后网址,—— 在通过状态栏我们可以看到,GOOGLE抓取网站的“状态”,而通过这些“状态”提示,我们可以了解到,GOOGLE对网站页面的抓取情部,是“成功”还是“失败”或“被Robots.txt拒接”,而为何“失败”我们也可以从这个工具了解到。

  小向多次在博客中提到,一个网站没有蜘蛛爬,何来网站被SE收录,而目前模拟抓取的工具很多(站长帮手、站长网),但是有多少模拟抓取工具能有GOOGLE抓取“权威”或“准确”。

  

  而我们可以"拿GOOGLE抓取来测试网站Robots.txt 是否正确",对于“Robots.txt的书写正确” 在百度站长工具投票中,有很多朋友都希望百度站长工具能够推出这款工具来。了解SEO的朋友,从图中已经看出来了! 我们不需要在漫长的等待百度站长工具推出对Robots.txt测试工具,现在我们可以用GOOGLE站长管理员工具来测试“Robots.txt的有效性”与"Robots.txt的书写正确性",让更多初学SEO的朋友因“不会写Robotx.tx”t或"把Robotx.txt写错"导致网站阻止蜘蛛爬取。

  

  图中,我们可以看到如果你使用GOOGLE抓取,抓取该网站写到Robots中的协议都会提示“已被Robots.txt拒绝”、而如果Robots.txt没有生效的状态中都会显示“成功”,用这种方法测试Robots.txt是最靠谱的一种方式 ,当然对于XX SE来说他本来就有点不遵守这Robots.txt、那就没有办法了!而对于"像GOOGLEBOT 一样抓取"用来检测Robots.txt 只是他使用运用手法之一,刚刚我们已经说过“GOOGLE 抓取”他可以模拟抓取网站的内容!

  

  而GOOGL抓取 也可以模拟抓取网站的内容结果、这里的结果与SE的快照差不多,但是用GOOGLE工具里面的抓取比看快照更方便、更准确! 而从这个结果中我们可以分析出,GOOGLE对该页面的抓取情况,如是否可以抓取JS、图片内容等等。

  很久没有写文章了,上次答应大家说要写一篇可以“测试Robots.txt的正确性”文章,现在满足大家了、下篇文章的“主题”大家也可以发表在留言上面提出,DJ小向将把自己知道的所有知识分享给大家,毕竟小向知道曾新手的自己也同样得到过别人的帮助,在这里同时“谢谢!追词网博客栏目的猎眼大哥、感谢猎眼大哥这几天对小弟的帮助与关照”。

时间: 2024-10-27 06:19:40

利用“GOOGLE抓取”测试Robots书写正确性的相关文章

使用 Google 抓取方式,测试 React 驱动的网站 SEO

本文讲的是使用 Google 抓取方式,测试 React 驱动的网站 SEO, 我最近进行了一项测试,它有关客户端渲染的网站是否能避免被搜索引擎的机器人爬取内容.就如我此文所述,React 并不会破坏搜索引擎的索引. 现在,我开始实施我的下一个步骤.为了了解 Google 到底能爬取和索引哪些内容,我建立了一个 React 的沙盒项目. 建立一个小型的网页应用程序 我的目标只是建立一个单纯的 React 应用程序,用最少的时间配置 Babel, webpack 和其他一些工具.之后,我会尽可能快

利用curl抓取远程页面内容的示例代码

利用curl抓取远程页面内容的一个小示例,需要的朋友可以过来参考下   最基本的操作如下 复制代码 代码如下: $curlPost = 'a=1&b=2';//模拟POST数据 $ch = curl_init(); curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0'));  //构造IP curl_setopt($ch, CURLOPT_REFERER, "ht

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;

利用PHP抓取百度阅读的方法示例_php技巧

前言 这篇文章主要介绍的是,如何利用PHP抓取百度阅读的方法,下面话不多说,来一起看看吧. 抓取方法如下 首先在浏览器里打开阅读页面,查看源代码后发现小说的内容并不是直接写在页面里的,也就是说小说的内容是通过异步加载而来的. 于是将chrome的开发者工具切到network一栏,刷新阅读页面,主要关注的是XHR和script两个分类下. 经过排查,发现在script分类下有个jsonp请求比较像是小说内容,请求的地址是 http://wenku.baidu.com/content/49422a3

asp 利用 xmlhttp 抓取网页内容

xml|网页 xmlhttp抓取网页,最近在博客园里看到了这篇文章,于是就顺便贴到blog上,原url:http://www.cnblogs.com/hover/archive/2004/10/09/36212.aspx     (博客园-翱翔.Net Blog) 抓取网页.偶要实现实实更新天气预报.利用了XMLHTTP组件,抓取网页的指定部分.需要分件html源代码此例中的被抓取的html源代码如下<p align=left>2004年8月24日星期二:白天:晴有时多云南风3-4级:夜间:晴

百度为什么抓取被robots.txt禁止的文件

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 前段时间互联网界对360不遵守robots.txt文件进行了群批,百度也强调自己是遵守robots.txt协议的.但从最近对某网站的分析来看,百度对robots.txt文件的遵守很不彻底.11月15号,我写了一篇文章各搜索蜘蛛对robots.txt文件改动的反应, 因为在11月13号左右,我在我从事的网站上放了robots.txt文件,明确禁

利用php抓取蜘蛛爬虫痕迹的示例代码_php实例

前言 相信许多的站长.博主可能最关心的无非就是自己网站的收录情况,一般情况下我们可以通过查看空间服务器的日志文件来查看搜索引擎到底爬取了我们哪些个页面,不过,如果用php代码分析web日志中蜘蛛爬虫痕迹,是比较好又比较直观方便操作的!下面是示例代码,有需要的朋友们下面来一起看看吧. 示例代码 <?php //获取蜘蛛爬虫名或防采集 function isSpider(){ $bots = array( 'Google' => 'googlebot', 'Baidu' => 'baidus

利用正则表达式抓取博客园列表数据_正则表达式

鉴于我在要完成的asp.net MVC 3 仿照博客园企业系统要用到测试数据,我自己输入太累,所以我就抓取了博客园的部分列表数据,还请dudu不要见怪. 在抓取博客园数据的时候采用了正则表达式,所以有不熟悉正则表达式的朋友可以参考相关资料,其实很容易掌握,就是在具体的实例中会花些时间. 现在我就来把我抓取博客园数据的过程叙述一下,如果有朋友有更好的意见,欢迎提出来. 要使用正则表达式抓取数据,首先就要创建一个正则表达式进行匹配,我推荐使用regulator,这个正则表达式工具,我们可以先使用这个

利用Python抓取行政区划码的方法_python

前言 国家统计局网站上有相对比较齐的行政区划码,对于一些网站来说这是非常基础的数据,所以写了个Python程序将这部分数据抓取下来. 注意:抓取下来以后还要进行简单的人工的整理 示例代码: # -*- coding:utf-8 -*- ''' 获取国家统计局上的行政区划码 ''' import requests,re base_url = 'http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201504/t20150415_712722.html' def get