蜘蛛抓取网页过程的四步曲

  随着搜索引擎的不断发展与升级,搜索引擎所派出的蜘蛛也变得越来越智能了,所以为了要弄清楚蜘蛛的工作原理,为了更好的优化自己的网站我们就必须不断的去研究蜘蛛。下面,我就和大家简单的聊聊蜘蛛的基本工作原理吧:

  蜘蛛工作的第一步:爬行你网站的网页,寻找合适的资源。

  蜘蛛它有一个特性,那就是他的运动轨迹通常都是围绕着蜘蛛丝而走的,而我们之所以将搜索引擎的机器人命名为蜘蛛其实就是因为这个特性。当蜘蛛来到你的网站之后,它就会顺着你网站中的链接(蜘蛛丝)不断的进行爬行,因此如何让蜘蛛能够更好的在你的网站中进行爬行就成为了我们的重中之重。

  这个时候我们经常会建议站长们用的手法就是在网站上多一些调用,这些调用均是调用网站内部的一些文章,这种做法是大多数站长的选择,不论是相关阅读,还是推荐阅读,亦或者是其它的排行榜之类的……

  蜘蛛工作的第二步:抓取你的网页。

  引导蜘蛛的爬行这只是一个开始,一个好的开始意味着你将有一个高起点。通过自己的内链设计,使得网站中不存在任何死角,蜘蛛可以轻松的到达网站中的每一个页面,这样蜘蛛在进行第二步工作——抓取的时候,将会事半功倍。

  而在这一步抓取的过程中我们又需要注意的就是要精简网站的结构,将那些不必要、不需要的多余代码去掉,因为这些都将会影响蜘蛛抓取网页的效率与效果。另外还需要大家注意的事情就是通过我们都不建议网站中放入FLASH,因为蜘蛛对于FLASH是不好抓取的,过多的FLASH会导致蜘蛛放弃抓取你网站的页面。

  蜘蛛工作的第三步:优质的文章,能够极大的提高蜘蛛抓取页面的几率。

  到底是外链为皇还是内容为皇这个已经不重要了,也不是我们这里要讨论的东西,但仅仅只是从这句话中我们就能清楚的知道内容的重要性了。同样的,蜘蛛也非常看重内容,一篇优质的原创文章可以很好的打动蜘蛛,让蜘蛛仅仅只是爬了一遍就迫不及待的将其带回。而相反,一篇抄袭、复制而来的文章,很有可能蜘蛛需要反复爬行几次、甚至几十次才有可能将其带回,并且还极有可能根本就无视其存在。

  当然这也不是绝对的,我们说的只是一个相对而言的东西,在同等条件下的两篇文章,优质的原创文章更加容易被蜘蛛所接受。

  蜘蛛工作的第四步:页面放出。

  这里我们所说的页面放出指的是在搜索引擎中可以被正常搜索到了,之所以说第四步是这一步而不是索引,是因为我觉得做为我们SEOER,应该尽量简化研究的过程。

  当蜘蛛将页面抓取完成之后带回索引库之后,一切的一切就将不再是我们所能够控制的了,所以我在这里跳过了索引这一步而是直接谈到放出页面这一步。

  在这一步我们也有几点需要注意的:

  1、耐心。请各位站长一定要有足够的耐心去等待页面的放出,这个过程可能是几分钟,几小时,一天,两天,甚至更长……

  2、恒心。很多站长在刚建站的时候,都是抱着极大的热情而去的,因此在建站的前几天都会很用心,很卖力的更新文章。可是当一段时间过去之后,他突然发现自己发的文章基本没有被收录的时候,就失去了信心,从而开始走捷径,要么复制要么抄袭,不想再自己写文章了……

  3、真心。用真心去对待每一篇文章,用真心去对待每一位用户,只有这样才能真正做到网站中的内容,都是用户们所需要看的内容,是真正的优质原创文章。

  《南昌SEO-熊伟写于2013年9月19日上午9点27分,文章版权归别提下空江所有,转载请注明出处:http://www.btxkj.com/artinfo/44.html》

时间: 2024-10-28 21:11:14

蜘蛛抓取网页过程的四步曲的相关文章

搜索引擎如何去抓取网页

搜索引擎看似简单的抓取-入库-查询工作,但其中各个环节暗含的算法却十分复杂.搜索引擎抓取页面工作靠蜘蛛(Spider)来完成,抓取动作很容易实现,但是抓取哪些页面,优先抓取哪些页面却需要算法来决定,下面介绍几个抓取算法: 1.宽度优先抓取策略: 我们都知道,大部分网站都是按照树状图来完成页面分布的,那么在一个树状图的链接结构中,哪些页面会被优先抓取呢?为什么要优先抓取这些页面呢?宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接.如下图:   大家可以发

用Python编写网络爬虫(一):抓取网页的含义和URL基本构成

一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来. 这样看来,网络爬虫就是一个爬行程序,一个抓

搜索引擎抓取网页原理学习笔记

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 做正规seo技术必会的搜索引擎抓取网页原理应该是很复杂的.可以写洋洋洒洒的长篇论文.这里就将我自己学习到的网页抓取原理记录一下.笔记应该不够完整只将重要过程做个介绍 首先抓取页面的工作需要分配个搜索引擎蜘蛛.也就是机器人了.每个搜索引擎都有大量的蜘蛛供其差遣.在如今这个信息更新极快得年代每个蜘蛛都不会闲着.搜索引擎给每只蜘蛛分配了大量网址.确

用nodejs爬虫抓取网页,但提示无Post()函数

问题描述 用nodejs爬虫抓取网页,但提示无Post()函数 使用EXPRESS模块搭建WEB项目. 代码: function transToPost(post){ var mPost = new Post({ title : post.title, link : post.link, description : post.description, pubDate : post.pubDate, source : post.source, author : post.author, typeI

ython-如何欺骗服务器,可以无限制的抓取网页!!!

问题描述 如何欺骗服务器,可以无限制的抓取网页!!! 大家好: 我现在想抓去一个网页,但是不想被服务器发现,应该怎么样做? 感觉CSDN的服务器做的就挺好的,我自己尝试的抓网页但是次数一旦多了,就不行了! 网络上的一些在python中添加浏览器头的信息,本人昨晚刚试过,也不是很给力! 有没有比较好的方法!比如:自动变IP之类的方法! 求各位大神指导! 解决方案 找一个能自动重启路由器的软件,填写路由器用户名和密码不就搞定了,只是重启的过程断网会导致采集程序无法采集部分数据 解决方案二: 只要你做

求教如何通过python抓取网页中表格信息

问题描述 求教如何通过python抓取网页中表格信息 刚刚开始学习python 不清楚如何通过python抓取网页中的表格信息 比如给定一个student.html 里面有学号.姓名.性别等信息 怎么样写才能够输入学号 读出其他信息? 解决方案 用正则表达式,表格数据放在table->tr->td中 解决方案二: 输入学号然后服务器在给你其他数据,应该是一个post的过程-你可以抓包看一下整个过程-至于提取特定的信息,你可以先看下整个表格的结构,再有针对性的写个正则表达式来提取出信息- 解决方

总结几点现在百度更新蜘蛛抓取的几点规律

摘要: 今天起床后我打开网站发现了一个现象,那就是百度蜘蛛在一个晚上来了几次,我的网站的更新频率是白天一篇文章,晚上11点到12点更新3篇文章,经过对网站的检查与分析,然后我与 今天起床后我打开网站发现了一个现象,那就是百度蜘蛛在一个晚上来了几次,我的网站的更新频率是白天一篇文章,晚上11点到12点更新3篇文章,经过对网站的检查与分析,然后我与朋友在QQ中聊了一下他手中的几个网站,我总结出了几点现在百度更新蜘蛛抓取的几点规律. 1.百度蜘蛛在7月13日的大更新之后越来越注重原创内容,前两次的大更

关于java 使用 socket 抓取网页的问题。

问题描述 学校布置了一个大作业,是用javasocket做一个简单的浏览器,需要自己抓取HTML代码然后自己去解析HTML的标签,在做的过程中需要用GET的方法去发送HTTPHEADER,然后得到响应,现在有几个问题:1.有些是HTTP1.0有些是HTTP1.1这个头文件怎么设置才能得到正确的回应2,我在尝试链接GOOGLE的时候,返回的是302FOUND,我输入的地址是www.google.com,期中返回的头文件里有个LOCATION:www.google.co.uk,然后我直接输入www.

Python打印scrapy蜘蛛抓取树结构的方法_python

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法.分享给大家供大家参考.具体如下: 通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单 #!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0): urls = allurls[referer] for url in urls