这是我面试的题目,借用了很多网上同仁的代码,如有冒犯,请海涵!
现在工作真难找,我应聘的单位是http://www.027dns.net/,希望公司经理能给我上班的机会,我会很 努力的,因为软件行业才是我的世界!我一个大学本科生当保安都成了同事们的笑话了,呵呵。
这是我第一次求职软件行业,第一次做面试题目,第一次自己这么认真写博客文章,写的不好,大家 请指正,我会进步的!
张素丰,转载请注明出处 http://www.cnblogs.com/zhangsufeng/archive/2009/02/28/1400224.html
屁话少说,正文开始:
假如我们采集网址:http://info.laser.hc360.com/list/z_news_yw.shtml 上的新闻,要求采集标题 、时间、内容、单篇文章如果有翻页则采集完全。
这种类型的采集就是从指定网页获得新闻列表(即url),然后通过其url获得新闻详情,这是一种很常 见的采集方式,有可能到很多页面上去采集,所以我们可以采用接口来构造基类。
首先定义 IGatherInfo.cs
1using System; 2using System.Collections.Generic; 3using System.Linq; 4using System.Text; 5 6namespace ClassLibrary 7{ 8 /**//// <summary> 9 /// 新闻采集类接口 10 /// </summary> 11 interface IGatherInfo 12 { 13 /**//// <summary> 14 /// 采集时间 15 /// </summary> 16 string gatherTime 17 { 18 get; 19 set; 20 } 21 /**//// <summary> 22 /// NewsListUrl:抽取页地址 23 /// RegexString:正则表达式,抽取逻辑 24 /// 返回新闻页url 25 /// </summary> 26 List<string> GatherUrlList(string NewsListUrl, string RegexString); 27 //采集新闻详细内容 28 List<NewsDetail> GatherNewsDetail(List<string> NewsUrlList, string RegeXString); 29 } 30} 31
以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索正则表达式
, string
, 新闻
, system
, 抽取
采集腾讯新闻
,以便于您获取更多的相关知识。