用搜索引擎原理来解释爬虫(蜘蛛)是什么

  很多人看来的爬虫是神乎其神的,也造成一个最常见的“实践后的经验之谈”——实践证明百度爬虫会秒收原创的内容!

  当然在任何一个略懂搜索引擎原理的人眼中,这就是毫不靠谱的实践。如果说实践是验证真理的方式的话,那前提要是有了比较完善的理论假设以后再去验证的。而像爬虫根本没有分析内容的能力,怎可能判断页面内容是否原创以后再进行收录呢?

  甚至有人认为爬虫根本就不会去抓取采集的内容,这就更奇怪了,爬虫不是先知,抓取之前怎么会知道页面是否是采集的呢?(这里不考虑一个特殊情况,即搜索引擎可能参考网站整体原创率来决定抓取优先级的问题,但这个比较深了)

  搜索引擎四个系统:下载、分析、索引、查询,这四块的工作基本独立的,判断采集与否的工作处于分析系统。而且估计是出于大规模页面查重的效率考虑,重复页面一般被索引以后隔比较长的时间才会被删除。即,搜索引擎收录页面与否,至少和这个页面本身质量无关。

  现在已经说明了爬虫无法判断页面质量,但其实严格意义上,爬虫连提取链接的作用都没有,它只是单单一个TCP/IP程序而已。但分析链接的事情总是要做的,不然爬虫也没法抓取新的页面了。准确的讲,分析链接是交由“调度员”来做的。爬虫1抓取页面,页面交给调度员1分析,调度员1把所有发现的链接存到URL库1,并把一部分调度员认为重要的链接返回爬虫1,让爬虫1去抓取那些重要的页面。同时,爬虫1抓取过的页面交给Page库1,如果Page库1里面的页面和URL库1里面重复的话,就不再重复抓取。

  大型商业搜索引擎都是多爬虫共同工作的,此时每个“调度员”还要和“总调度”交换信息,从而分配各个爬虫的具体工作。如果看到几个爬虫经常轮流的短时间内抓取一个页面多次的话,往往就是调度工作没做好。

  不过其实诸如“调度员”之类的,归入爬虫程序里面也不能算错。只是一个说法相对严谨、一个说法相对宽松而已。但无论如何的是,爬虫只管下载,最多就配合调度员多几个花样来下载罢了。

  本文来自http://www.csdinuan.com,允许转载,但请保留链接.

时间: 2024-09-30 21:45:12

用搜索引擎原理来解释爬虫(蜘蛛)是什么的相关文章

搜索引擎原理简析 不懂搜索引擎原理的SEOer就是在裸奔

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 不懂搜索引擎原理的SEOer就是在裸奔. 嗯,在结束废话之前,再插一句:中国第一个基于网页索引搜索的搜索引擎是北大的天网. 好,先上图来简单看下搜索引擎的"三板斧":数据搜集->预处理[索引]->排名. 数据搜集 即数据的搜集阶段,将网页从浩如瀚海的9201.html">互联网世界搜集到自己的数

为什么要了解搜索引擎原理

摘要: SEO行业在中国经过多年的发展,已经风风火火起来了,也有越来越多的人加入了SEO的行业中,不过SEO在中国起步的时间不算长,加上许多外在因素的影响,导致很多SEO新人们在学习的过 SEO行业在中国经过多年的发展,已经风风火火起来了,也有越来越多的人加入了SEO的行业中,不过SEO在中国起步的时间不算长,加上许多外在因素的影响,导致很多SEO新人们在学习的过程中吃尽了苦头,今天和大家分享一些关于我自己在学习SEO过程中走过的一些弯路,系统给后来新人提个醒! 我们学习某样东西至少要先了解这样

搜索引擎原理和用户使用习惯

摘要: 搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.当用户在搜 搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.当用户在搜索框输入一个关键字后,我们应该给用户返回什么内容呢? 一.搜索引擎原理和用户使用习惯 1.1 搜索引擎是一个可供所有人检索的数据库 图1:搜索引擎简单的人机交互过程

关于Google搜索引擎作弊的解释

  目前国内有部分"个体户"在了解了一些非常规的网站优化手法之后,就开始在市场上"招摇撞骗",很多不明真相的客户就被这种"公司"所骗.他们对客户的网站实施做弊的优化手法,使其网站在google搜索结果排名有所提升.其实这种"做弊"手段,将会为客户的网站带来制命的打击,最终甚至会被Google 排除在其数据库中.客户所花费的金钱,与辛苦构造的网站就这样毁于一旦. 一但您在发现了某些做弊的网站,您可以通过Google 提供的接口,

搜索引擎原理---让自己网站排名飞起来

网站优化发展这些年,不知有多少人在研究,搜索引擎算法,研究它的漏洞,目的只有一个操给它,让自己网站的关键词排名飞起来.只要我们要想研究搜索引擎,那么它的一些基本性的原理,是我们必须掌握的,本篇就是给大家详细的讲解下.搜索引擎的搜索原理,后面给大家详细的讲解下这种应用. 1.了解搜索引擎先从蜘蛛开始 百度.谷歌.搜狗等这些搜索引擎都是提供内容,给广大的搜索用户,那么他们是怎么发现这些内容的呢?说白了,就是他们各自己的蜘蛛程序,到各大互联网网站去抓取内容,就是网并且存档下载的形式.蜘蛛抓取内容,就是

致青春2:必须从搜索引擎原理开始学习SEO

大家好,我是颜江峰,上一篇文章<致青春:写给新手SEO们的一些话>发表以来,近期陆陆续续有不少朋友加了我的QQ:793030022.写完这篇文章我发现内容太多了,时间限制也没能写更加详细,写一篇文章有时候打字要打接近两个小时,还请大家体谅一下. 最近时常接受到了一些朋友的咨询,尤其是打算接触这个行业的朋友.其中有一位山西的朋友,问我SEO有没有学历要求.我回答SEO对学历要求不高,只要你有一颗坚持和肯学习的心.对方又告诉我,他不懂编程,不会代码,会是障碍吗?这位朋友让我想起笔者初时对SEO的抗

360综合搜索推出爬虫蜘蛛 开发竞价排名系统

A5站长网8月28日消息,昨日360综合搜索宣布正式推出搜索蜘蛛(也叫爬虫)--360Spider.360综合搜索新浪官方微博称如果站长希望自己的网站被360综合搜索收录,请检查一下网站robots.txt 文件是否允许360搜索蜘蛛抓取您的网站内容.如果网站还没有允许360搜索蜘蛛抓取,只要在robots.txt 文件中添加360Spider相关代码即可. 开发竞价排名系统-蜘蛛爬虫">   robots.txt 文件中添加360Spider相关代码 根据最新数据显示,360综合搜索在上

使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤_python

复制代码 代码如下: #!/usr/bin/env python# -*- coding: utf-8 -*- from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector import Selector from cnbeta.items import CnbetaItemclass

揭开神秘面纱,搜索引擎原理浅析-搜索引擎技术

在浩如烟海的Internet上,特别是其上的Web(World Wide Web万维网)上,不会搜索,就不会上网.网虫朋友们,你了解搜索引擎吗?它们是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的话题. 一.搜索引擎的分类 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎.按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory). 全文搜索引擎的数据库是依靠一个叫"网络机