ASP.NET通用采集程序GatherInfo的实现

这是我面试的题目,借用了很多网上同仁的代码,如有冒犯,请海涵!

现在工作真难找,我应聘的单位是http://www.027dns.net/,希望公司经理能给我上班的机会,我会很 努力的,因为软件行业才是我的世界!我一个大学本科生当保安都成了同事们的笑话了,呵呵。

这是我第一次求职软件行业,第一次做面试题目,第一次自己这么认真写博客文章,写的不好,大家 请指正,我会进步的!

张素丰,转载请注明出处 http://www.cnblogs.com/zhangsufeng/archive/2009/02/28/1400224.html

屁话少说,正文开始:

假如我们采集网址:http://info.laser.hc360.com/list/z_news_yw.shtml 上的新闻,要求采集标题 、时间、内容、单篇文章如果有翻页则采集完全。

这种类型的采集就是从指定网页获得新闻列表(即url),然后通过其url获得新闻详情,这是一种很常 见的采集方式,有可能到很多页面上去采集,所以我们可以采用接口来构造基类。

首先定义  IGatherInfo.cs

 1using System;

 2using System.Collections.Generic;

 3using System.Linq;

 4using System.Text;

 5

 6namespace ClassLibrary

 7{

 8    /**//// <summary>

 9    /// 新闻采集类接口

10    /// </summary>

11    interface IGatherInfo

12    {

13        /**//// <summary>

14        /// 采集时间

15        /// </summary>

16        string gatherTime

17        {

18            get;

19            set;

20        }

21        /**//// <summary>

22        /// NewsListUrl:抽取页地址

23        /// RegexString:正则表达式,抽取逻辑

24        /// 返回新闻页url

25        /// </summary>       

26        List<string> GatherUrlList(string NewsListUrl, string RegexString);

27        //采集新闻详细内容

28        List<NewsDetail> GatherNewsDetail(List<string> NewsUrlList, 

string RegeXString);

29    }

30}

31

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索正则表达式
, string
, 新闻
, system
, 抽取
采集腾讯新闻
,以便于您获取更多的相关知识。

时间: 2024-10-29 01:26:57

ASP.NET通用采集程序GatherInfo的实现的相关文章

浅谈自动采集程序及入库ASP的实现

采集|程序|采集     最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单. 原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中.其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的.与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站.

浅谈ASP自动采集程序及入库

采集|程序 最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中.其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的.与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站.简单事例: 1<

浅谈自动采集程序及入库

采集|程序|采集 <SPAN id=ArticleContent1_ArticleContent1_lblContent><SPAN style="FONT-SIZE: 12px">最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.<BR>原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的

ASP读取XML实例 优酷专辑采集程序 雷锋版_应用技巧

复制代码 代码如下: <title>雷锋|优酷-专辑 采集程序</title></head> <form name="form1" method="post" action="?action=add"> <table width="95%" border="0" align="center" cellpadding="0&q

asp 采集程序常用函数分析_小偷/采集

原理 采集程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页.比如新闻采集程序,很多都是调用了sina的新闻网页,并且对其中的html进行了一些替换,同时对广告也进行了过滤.用采集程序的优点有:无须维护网站,因为采集程序中的数据来自其他网站,它将随着该网站的更新而更新:可以节省服务器资源,一般采集程序就几个文件,所有网页内容都是来自其他网站.缺点有:不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么采集程序也要进行相应修改:速度,因为是远程调用,速度和在

asp 小偷采集程序原理与常用函数方法_小偷/采集

用采集程序的优点有:无须维护网站,因为采集程序中的数据来自其他网站,它将随着该网站的更新而更新:可以节省服务器资源,一般采集程序就几个文件,所有网页内容都是来自其他网站.缺点有: 不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么采集程序也要进行相应修改:速度,因为是远程调用,速度和在本地服务器上读取数据比起来,肯定要慢一些. 一.事例 下面就XMLHTTP在ASP中的应用做个简单说明 复制代码 代码如下: <% '常用函数 '1.输入url目标网页地址,返回值getH

asp通用采集函数冗余版可以保存文件到本地_小偷/采集

<% '名称:asp通用采集函数冗余版,要精品版的有心人自己改 '作者:柳永法 '日期:2007-6-23 Function getHTTPPage(Path)     t = GetBody(Path)     getHTTPPage = BytesToBstr(t, "GB2312") End Function Function GetBody(url)     On Error Resume Next     Set xmlhttp = CreateObject("

ASP读取XML实例 优酷专辑采集程序 雷锋版

复制代码 代码如下: <title>雷锋|优酷-专辑 采集程序</title></head> <form name="form1" method="post" action="?action=add"> <table width="95%" border="0" align="center" cellpadding="0&q

asp 小偷采集程序原理与常用函数方法

用采集程序的优点有:无须维护网站,因为采集程序中的数据来自其他网站,它将随着该网站的更新而更新:可以节省服务器资源,一般采集程序就几个文件,所有网页内容都是来自其他网站.缺点有: 不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么采集程序也要进行相应修改:速度,因为是远程调用,速度和在本地服务器上读取数据比起来,肯定要慢一些. 一.事例 下面就XMLHTTP在ASP中的应用做个简单说明 复制代码 代码如下: <% '常用函数 '1.输入url目标网页地址,返回值getH