爬虫/蜘蛛程序的制作(C#语言)

程序

问题是对某一网站或所有网站进行抓取,即下载所有网页。怎么实现呢?

先将问题最小化(转化的思想,转化为小规模,可以解决的问题):如果只有一个网页,怎么下载?问题变地很简单,只要用WebClient/WebRequest(甚至OpenFileDialog都可以)打开Url地址,将数据流存入本地存储器的文件(以相应的扩展名作为扩展名)即可。示例代码如下:

string BoardStream;//下载内容存入此变量

Uri url = new Uri( “http://www.163.com” );//将下载地址转换为Uri类型

HttpWebRequest requestPage = ( HttpWebRequest )WebRequest.Create( url );

WebResponse response = requestMainPage.GetResponse();

Stream stream = response.GetResponseStream();//获取页面流

if( response.ContentType.ToLower().StartsWith( "text/" ) )//如果获得成功(即为文本格式)

{

    StreamReader reader = new StreamReader( stream , System.Text.Encoding.UTF8 );//读取获得内容流

BoardStream = reader.ReadToEnd();//将内容流转换为文本并存入变量BoardStream,即为所需要的数据流

}

StreamWriter saveAPage = new StreamWriter( “C:\a.html” , false , System.Text.Encoding.GetEncoding( "gb2312" ) );//实例化写入类,保存路径假设为C:\a.html

saveAPage.Write(Rich.Text);//创建写入任务

saveAPage.Flush();//写入文件(即清理缓存流)

saveAPage.Close();//关闭写入类的对象

好了,这样便完成了一个网页的下载。最简化问题解决!

 

好了,下面的问题是,如何获得更多的网页?可以分两步:

1.    得到更多的地址

2.    下载地址指向的链接内容(和上面下载一页的方法一样)

循环进行上面两步即可以完成蜘蛛的全部功能了 '

要得到更多的地址,最好的办法是模拟人使用网页的办法。我们平时怎么浏览整个网站?无非是从主页依次点开各层链接而已。好了,思路出来了:

分析已经下载的主页文本,提取其中所有的Url地址信息,再依次下载得到的Url地址指向的链接即可。

现在网络上有不少Web2.0的网站了,这对解析Url地址有不小的负面作用。在Web2.0出现前,所有的链接都是在HREF后面出现的,而现在却没有了这样的关键字,地址可能出现于任何的关键字之后。怎么办呢?

经过大量分析,笔者发现:其实现在所有的链接还有一个共性,即都包裹在双引号(””)当中,这便对解析提供了极大的方便。笔者将链接分为两类:

1.    完整链接,即:”http://www.163.com”类,其前面有明显的标志http://,这样的内容很好提取,只要用String的静态方法IndexOf()找出http://的位置以及从此位置算起第一个“””出现的位置(即链接结束的位置),再用SubString()方法将地址提取出来即可。

2.    非完整链接,其形式一般为”\index.htm”,提取方法和完整链接的方法相同,只是判断它是不是链接上有一定难度(因为属性等其它信息也可能以“”\”开头,这时就很难判断了。笔者采取的方法是试下载,即下载一下试试,如果超时刚不是,不超时刚是。注意:要在它的前面加上根地址,如“http://www.163.com/index.htm”。

 

好了,我想蜘蛛的所有功能已经实现了吧?嘿嘿'

只是这样一个蜘蛛程序怕是效率万般低下,因为它只有一个线程,光解析下一层的链接都要花上不少时间,怎么办呢?当然是采取更优化的办法:多线程

 

 

时间: 2024-10-26 11:59:12

爬虫/蜘蛛程序的制作(C#语言)的相关文章

构造C#语言的爬虫蜘蛛程序

C#特别适合于构造蜘蛛程序,这是因为它已经内置了HTTP访问和多线程的能力,而这两种能力对于蜘蛛程序来说都是非常关键的.下面是构造一个蜘蛛程序要解决的关键问题: ⑴ HTML分析:需要某种HTML解析器来分析蜘蛛程序遇到的每一个页面. ⑵ 页面处理:需要处理每一个下载得到的页面.下载得到的内容可能要保存到磁盘,或者进一步分析处理. ⑶ 多线程:只有拥有多线程能力,蜘蛛程序才能真正做到高效. ⑷ 确定何时完成:不要小看这个问题,确定任务是否已经完成并不简单,尤其是在多线程环境下. 一.HTML解析

360综合搜索推出爬虫蜘蛛 开发竞价排名系统

A5站长网8月28日消息,昨日360综合搜索宣布正式推出搜索蜘蛛(也叫爬虫)--360Spider.360综合搜索新浪官方微博称如果站长希望自己的网站被360综合搜索收录,请检查一下网站robots.txt 文件是否允许360搜索蜘蛛抓取您的网站内容.如果网站还没有允许360搜索蜘蛛抓取,只要在robots.txt 文件中添加360Spider相关代码即可. 开发竞价排名系统-蜘蛛爬虫">   robots.txt 文件中添加360Spider相关代码 根据最新数据显示,360综合搜索在上

使用C#实现蜘蛛程序

"蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接--对于不同的用户,蜘蛛程序有不同的用途.那么,蜘蛛程序到底是怎样工作的呢? 蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上旅行一样,蜘蛛程序也按照类似的方式在Web链接织成的网上旅行.蜘蛛程序之所以是半自动的,是因为它总

关于数值分析的实验程序,用c语言c++均可,需要用到数值分析课相关知识,我可以提供部分资料

问题描述 关于数值分析的实验程序,用c语言c++均可,需要用到数值分析课相关知识,我可以提供部分资料 解决方案 我只想说 数据分析 不应该用MATLAB更方便吗? 解决方案二: http://wenku.baidu.com/link?url=ZAScYogajXHrTTRa5xjpUPtS7OQQXZ_LfXaWNkczTtWf2MJgx0RZFUuca4iRGUcPwtr4Um4AJObpWKl8dg5WS6fZdx6lfoES8JYcsJtcdgi 解决方案三: 数值分析各种算法C语言数值分

ASP程序界面的多语言支持

程序 ASP程序界面的多语言支持 可能有的web应用程序,需要多语言支持,例如,讨论组,既有中文界面,以适合国人使用的方便,又需要英文界面,以满足国际化的需要.我想,似乎没有必要为每一个语言都写一个版本,这不仅比较繁琐,而且以后程序升级就必须修改所有版本的程序.熟悉vc++程序的朋友一定知道通常windows应用程序的国际化手段都是通过rc文件来解决的.只要重新加入不同语言版本的rc文件编译一下就行了.asp程序不能编译也不需编译.我于是开始考虑使用数据库,将ASP程序中使用到的提示信息/甚至图

多线程蜘蛛程序的实现

多线程蜘蛛程序是一个很有用的组件, 我在自己开发的Spider Studio中也提供了一个. 在设计上我尽量遵循使用简 单的原则, 大量使用dynamic对象的特性, 使得代码非常精简灵活, 通过17行就能实现一个功能比较齐全的蜘蛛程序. 现 在和大家分享一下: public void Run() { dynamic link = new ExpandoObject(); link.Url = "http://news.163.com"; Spider.AddLink(link); S

asp.net程序来读取多语言版本Ini配置文件

这是asp.net程序来读取多语言版本Ini配置文件的开发示例,主要分为以下三个部分: 1. Ini 配置文件 2. 读取Ini配置文件的DLL 3. Web页面调用与内容显示 4. 数据库表T_User,如右图 首先说明一下Ini 文件格式:如下图其中[M_Index]节点和该节点下的所有的key和value,其中[M_Index]节点的名称是对应开发示例中的每个页面所在的文件夹名称的第一个字母加下划线再加该页面的名称组合而成,如 M_Index 则表示Manager文件夹下面有一个Index

r语言-在C# 程序里 调用R语言 调用完R语言后C#程序也跟着结束了,怎么让他不跟着结束呢?

问题描述 在C# 程序里 调用R语言 调用完R语言后C#程序也跟着结束了,怎么让他不跟着结束呢? 我程序里调用R语言的代码是这样的 REngine.SetEnvironmentVariables(); REngine engine = REngine.GetInstance(); engine.Evaluate(R_cmd); engine.Evaluate("q()"); engine.Dispose(); 这样有什么问题吗? 解决方案 你C#怎么写的?控制台程序可以加上一个Cons

网关自动切换程序的制作方法

问题描述 网关自动切换程序的制作方法 我在进行一个双网关的自动切换的实验,需要实现的功能是在网络完好的情况下备用双网关,利用一个程序可以在开机的时候自动监测网络讯号,当目前默认网关出现网络故障时候,不需要任何的设置,能自动调到备用网关里面 ,实现网络的双保险! 解决方案 所谓网关实际上是给系统的路由设置路由规则,也就是除了满足已有路由规则的数据包都发向网关,网关再根据数据包的目的地址进行转发.你想要实现双网关,其实就是动态改变系统的路由规则, 实现思路就是程序启动后一直ping某个地址,如果不通