巧用robots文件提升页面抓取率

  一、认识robots文件

  我们知道,robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的,什么是不可以被查看的,蜘蛛知道了这些以后,就可以将所有的精力放在被我们允许访问的页面上面,从而将有限的权重集中起来。

  同时,我们还不能互略最重要的一点就是,robots.txt是搜索引擎访问网站要查看的第一个文件。明白了这一点,我们就有必要,也可能针对这一条做一些文章。

  二、将sitemap.xml写入robots文件

  前面提到了,robots.txt文件是搜索引擎中访问网站要查看的第一个文件,那么,如果我们将sitemap.xml(网站地图)文件地址写入robots.txt文件里面,自然而然会被搜索引擎蜘蛛在第一时间发现,也增大了网站页面被快速抓取和收录的可能性。此种做法,对于新站作用明显,对于大站更具有积极和现实的作用。

  具体写法示例如下:

  


 

  所以,无论是新站还是老站,为了使得更多的页面被搜索引擎抓取,有必要将sitemap.xml写入robots.txt文件中。

  三、Sitemap.xml文件的获取

  前面讲了那么多,可能很多人还不是很明白,sitemap.xml文件究竟如何攻取呢?

  给大家提供一个工具,也是谷歌官方推荐的sitemap.xml在线生成工具,http://www.xml-sitemaps.com/,大家可以根据里面的选项选择适合自己网站的sitemap.xml生成样式。生成sitemap.xml后,一般需要将该文件放置在根目录下面即可。

  


 

  综上,把sitemap.xml地址写入robots.txt文件,从而提升页面抓取率的方式是可行的,也是具有可操作性的。希望可以与更多的朋友就网站推广和优化进行探讨。本文原创台州人才网http://tz.qianjiangrc.com。欢迎转载,请保留出处。

时间: 2024-08-22 14:45:34

巧用robots文件提升页面抓取率的相关文章

关于页面抓取的工具哪个好??

问题描述 大家好,请问大家有没有使用过页面抓取工具,能给我推荐一个吗?最好抓取后不要有太多的垃圾代码.和垃圾文件存在,在线等,谢谢 解决方案

spring mvc设置定时器,如何每分钟从前台jsp页面抓取数据?

问题描述 spring mvc设置定时器,如何每分钟从前台jsp页面抓取数据? spring mvc设置定时器,如何每分钟从前台jsp页面抓取数据?从后台抓取,而不是表单提交的.请知道的回答. 解决方案 用httpclient类.不要表单提交就用gethttp://blog.csdn.net/dj4kobe/article/details/6019650

舍卒保帅:巧用robots.txt提升网站权重

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 这不是什么绝窍,而是向大家提供一种思路. 目前采集站很多,加上百度算法频繁调整,被降权,被K成光杆司令的站比比皆是. 我的新站易拍屋www.epioo.com就更不例外了.这是一个网摘类站点,在会员收藏网页的同时不仅给网页截图还保存原网页代码,即完全备份一个页面,存在高度复制性. 刚开始的时候百度收录3千页每天就有1千多IP,可是好景不长,几

如何解决远程页面抓取中的乱码问题

解决|问题|页面 由于平时使用的网页文件基本上都是gb2312编码方式,如果通过xmlhttp控件读取的话,肯定会出现乱码问题,但是要把所有文件都改成utf-8编码,操作上比较麻烦.经过反复比较,我找到了相对实用的解决方法. ff提供了overrideMimeType方法,可以指定返回值的编码,所以解决起来比较简单,只要把这个方法指向gb2312就可以了.对于IE,可以用vbs配合来作编码转换,用gb2utf8来转换接收到的二进制数据,其中利用到execScript方法来调用vbs的函数. [复

aspx页面抓取参数的问题

问题描述 a.aspx现有一GridView,其中有一列嵌入了hyperlink:<Columns><asp:HyperLinkFieldDataTextField="PKID"DataTextFormatString="编辑"datanavigateurlfields="PKID"datanavigateurlformatstring="~Mod_InvestEdit.aspx?XID={0}"/>&

如何解决远程页面抓取中的乱码问题_AJAX相关

由于平时使用的网页文件基本上都是gb2312编码方式,如果通过xmlhttp控件读取的话,肯定会出现乱码问题,但是要把所有文件都改成utf-8编码,操作上比较麻烦.经过反复比较,我找到了相对实用的解决方法. ff提供了overrideMimeType方法,可以指定返回值的编码,所以解决起来比较简单,只要把这个方法指向gb2312就可以了.对于IE,可以用vbs配合来作编码转换,用gb2utf8来转换接收到的二进制数据,其中利用到execScript方法来调用vbs的函数. 复制代码 代码如下:

使用Robots.txt引导百度爬虫合理分配抓取资源

我所在的网站算是一个大型网站,百度收录3000万,每天百度爬虫抓取总次数在500w次左右,单页的百度收录率 80%,看起来已经是一个相当不错的数据,但分析一下详细的日志文件,还是可以发现一些问题, 1.大型网站的列表页为了http://www.aliyun.com/zixun/aggregation/17453.html">方便用户查找所需信息,通常会设置多重的筛选条件(Facet Navigation),但爬虫并没有智能到可以自主判断哪些条件可以组合,哪些条件组合起来没有意义,只要在代码

PHP怎样用正则抓取页面中的网址_php技巧

前言 链接也就是超级链接,是从一个元素(文字.图片.视频等)链接到另一个元素(文字.图片.视频等).网页中的链接一般有三种,一种是绝对URL超链接,也就是一个页面的完整路径:另一种是相对URL超链接,一般都链接到同一网站的其他页面:还有一种是页面内的超链接,这种一般链接到同一页面内的其他位置. 搞清楚了链接的种类,就知道要抓链接,主要还是绝对URL超链接和相对URL超链接.要写出正确的正则表达式,就必须要了解我们查找的对象的模式. 先说绝对链接,也叫作URL(Uniform Resource L

node.js抓取并分析网页内容有无特殊内容的js文件_node.js

nodejs获取网页内容绑定data事件,获取到的数据会分几次相应,如果想全局内容匹配,需要等待请求结束,在end结束事件里把累积起来的全局数据进行操作! 举个例子,比如要在页面中找有没有www.baidu.com,不多说了,直接放代码: //引入模块 var http = require("http"), fs = require('fs'), url = require('url'); //写入文件,把结果写入不同的文件 var writeRes = function(p, r)