网络蜘蛛:深度优先还是广度优先

  "网络蜘蛛" 学名Spider,又叫"网络爬虫"! 关于网络蜘蛛的概述这里就不多讲了 今天我主要想说的是 关于 蜘蛛的爬行设计的方式与方法

  我们可以分为2种:

  那么什么是深度优先? 什么是广度优先?有什么用? 上海SEO (SWJ) 下面为大家讲解 !

  本人学知浅薄 只会用 通俗的话与道理与大家分析 如有错误请及时联系我 所以还请大家多多见谅包含!

  一种是 深度优先策略 一种是 广度优先策略! 以下我们就围绕这2点进行分析 SWJ 非常欢迎大家一起交流 学习与探讨!

  深度优先 顾名思义就是 让 网络蜘蛛 尽量的在抓取网页时 往网页更深层次的挖掘进去 讲究的是深度!

  也泛指: 网络蜘蛛将会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接!

  以下我发张图 大家看下: (下面这张是 简单化的网页连接模型图 其中A为起点 也就是蜘蛛索引的起点!)

  总共分了5条路径 供蜘蛛爬行! 讲究的是深度!

  (下面这张是 经过优化的网页连接模型图! 也就是改进过的蜘蛛深度爬行策略图!)

  根据以上2个表格 我们可以得出以下结论:

  图1:

  路径1 ==> A --> B --> E --> H

  路径2 ==> A --> B --> E --> i

  路径3 ==> A --> C

  路径4 ==> A --> D --> F --> K --> L

  路径5 ==> A --> D --> G --> K --> L

  经过优化后

  图2: (图片已经帮大家标上方向了!)

  路径1 ==> A --> B --> E --> H

  路径2 ==> i

  路径3 ==> C

  路径4 ==> D --> F --> K --> L

  路径5 ==> G

  深度爬行的优点是:

  网络蜘蛛程序在设计的时候相对比较容易些把 其他我也没发觉有什么优点... 还有就是 蜘蛛的这种 "勇往直前"的精神 值得学习下! ^_^

  深度爬行的缺点是:

  缺点么 多了一点点 呵呵! 每次爬行一层 总要向"蜘蛛老家" 数据库访问一下 问问老总有必要还要爬下一层吗! 爬一层 问一次.... 引用一句高人的话 如果一个蜘蛛不管3721不断往下爬 很可能迷路 更有可能爬到国外的网站去.. 本来目标是中文网站 因为IP的问题 国外IP做了中文站的话.... 就容易去别人"老家"了..这样不仅增加了系统数据的复杂度 更是增加的服务器的负担 我想没有一家搜索公司会愿意则样的把,...除非脑子"秀"了 .. ^_^

  接下来 我们介绍下普遍使用的 广度优先策略 大家休息下 喝杯咖啡 看的也累把 我写的也累.... ^^

  广度优先 在这里的定义就是 层爬行

  什么叫 蜘蛛 层爬行?

  就是一层一层的爬行 按照层的分布与布局 去索引处理与抓取网页! 当然SE不会派一个蜘蛛去的 每层会派一个或多个蜘蛛Spider去抓取内容!

  (下面这张就是 广度优先策略图(层爬行图))

  大家一看就明白了把 聪明的人 下面的文章也不需要看了 答案已经告诉你了 ^ ^

  根据以上表格 我们可以得出以下结论路径图:

  路径1 ==> A

  路径2 ==> B --> C --> D

  路径3 ==> E --> F --> G

  路径4 ==> H --> i --> K

  路径5 ==> L

  广度爬行的优点是:

  广度相对深度 对数据抓取更容易控制些! 对服务器的负栽相应也明显减轻了许多! 爬虫的分布式处理 使的速度明显提高! 其他的想也可以想到拉!

  广度爬行的缺点是:

  暂时还没观察到有什么缺点 呵呵 就好比 DIV+CSS样式表(层布局)一样道理 你觉得有什么缺点吗?

  难道是新人不会这个问题? ^ ^

  不会不要紧 下载这本电子书去看看 <> 下载地址: http://www.seo-sh.cn/zl/seoqita/122.html

  其他还有什么建议意见 请多多指教与批评 上海SEO618.html">负责人SWJ 非常欢迎各位SEO爱好者 一起交流 学习与探讨SEO优化技术,网站策划也可以 ^_^ 联系方式见首页底部!

  转自 上海SEO http://www.seo-sh.cn

时间: 2024-09-07 20:10:04

网络蜘蛛:深度优先还是广度优先的相关文章

网站SEO常识:网络蜘蛛是什么?

网络蜘蛛即Web http://www.aliyun.com/zixun/aggregation/8313.html">Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其 它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止.如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个

C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)

链接|网络|网页 本文介绍网络蜘蛛获取网页中所有链接的方法,实现原理:使用System.Net.WebClient类获取远程网页内容,然后使用URL正则表达式分析Html代码中的链接.代码如下: using System;using System.Net;using System.Text;using System.Text.RegularExpressions; namespace HttpGet{class Class1{[STAThread]static void Main(string[

用Java编程实现“网络蜘蛛”

简介 "网络蜘蛛"或者说"网络爬虫",是一种能访问网站并跟踪链接的程序,通过它,可快速地画出一个网站所包含的网页地图信息.本文主要讲述如何使用Java编程来构建一个"蜘蛛",我们会先以一个可复用的蜘蛛类包装一个基本的"蜘蛛",并在示例程序中演示如何创建一个特定的"蜘蛛"来扫描相关网站并找出死链接. Java语言在此非常适合构建一个"蜘蛛"程序,其内建了对HTTP协议的支持,通过它可以传输

用C#2.0实现网络蜘蛛(WebSpider)

摘要:本文讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛.使用这个程序,可以通过一个入口网址(如http://www.comprg.com.cn)来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载到本地.然后可以利用其他的分析工具对这些网络资源做进一步地分析,如提取关键词.分类索引等.也可以将这些网络资源作为数据源来实现象Google一样的搜索引擎. 关键词:C#2.0,Html,网络蜘蛛, 键树,正则表达式 一.引言 在最近几年,以Google为首的搜索引擎越来越引起人们的关

PHP实现二叉树的深度优先与广度优先遍历方法_php技巧

本文实例讲述了PHP实现二叉树的深度优先与广度优先遍历方法.分享给大家供大家参考.具体如下: #二叉树的广度优先遍历 #使用一个队列实现 class Node { public $data = null; public $left = null; public $right = null; } #@param $btree 二叉树根节点 function breadth_first_traverse($btree) { $traverse_data = array(); $queue = arr

网络蜘蛛运行模式简介

网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下, 如:http://www.ithov.com/robots.txt.网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访 问,或者哪些目录对于某些特定的网络蜘蛛不能访问.例如有些网站的可执行文件目录和临时文件目录不希望被 搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录. Robots.txt语法很简单,例如如果对目录没有任何限 制,可以用以下两行来描述:

网络蜘蛛独白篇:我是蜘蛛我怕谁

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 大家好,我是蜘蛛.别恐慌,我不是那种会吐丝.长得吓人.得空分泌点儿毒液的蜘蛛.我是网络蜘蛛,你们是看不到我的.但是,别以为看不到就轻视我哦,很多的站长想请我串门,我还得看看他家布置得合我口味不?如果好的话,我会每天都去,如果搞的乱七八糟的,切,我一辈子都不去那也是可能的.我就是这么牛叉,因为我是蜘蛛,我怕谁啊. 虽然大家都知道我的存在,但是很

斯诺登借网络蜘蛛自动窃取NSA服务器数据

<纽约时报>一份新报道称,"棱镜门"泄密者爱德华·斯诺登(Edward Snowden)利用一个"完全自动化"的工具,从美国http://www.aliyun.com/zixun/aggregation/1727.html">国家安全局(NSA)的服务器下载了至少20万分绝密文件. 据<纽约时报>报道,NSA一位高级官员表示,斯诺登任职期间,通过一个专为搜索.索引和网页拷贝而设计的"网络蜘蛛"软件,&quo

浅谈站长与网络蜘蛛

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网络蜘蛛搜索引擎的爬虫对网站的重要性站长们可向而知了吧应该.那该如何处理好你与网络蜘蛛的关系那,下面就教大家如何养好网络蜘蛛,让它更好的为你服务呢? 既要让网络蜘蛛天天有东西吃,又要保证网络蜘蛛能深入你的站,把站内的页面都挖掘出来,这就很重要.本人在做站时与网络蜘蛛亲密接触,了解它的习性,一点经验,与大家分享: 1.保证站点结构,简洁又合理,