网站数据采集器怎么做

问题描述

我想做个数据采集器,把中国体育彩票开奖的信息取出来。不懂怎么动手,请详细指点一下。

解决方案

解决方案二:
可以用http协议获取中国体育彩票网站的信息,然后根据获取到的html数据进行正则匹配出开奖的信息……
解决方案三:
protectedvoidButton1_Click(objectsender,EventArgse){WebRequestwc=HttpWebRequest.Create("http://www.cznd.gov.cn/node/jrgxq_qnyw/2013-7-5/137512575342148320.html");wc.ContentType="application/x-www-form-urlencoded;charset=gb2312";using(WebResponsewq=wc.GetResponse()){using(Streams=wq.GetResponseStream()){using(StreamReadersr=newStreamReader(s,Encoding.GetEncoding("gb2312"))){stringhtml=sr.ReadToEnd();Matchm=Regex.Match(html,@"(?i)<td[^>]*?class=(['""]?)NewsContent1[^>]*?>s*?<p[^>]*?>s*?([sS]*?)</p>");stringresult=m.Groups[2].Value;Console.Write(result);Console.ReadLine();}}}}

前几天看到的一个案例.
解决方案四:
</div><TABLEwidth="366"align="center"cellpadding="0"cellspacing="0"style="color:#4a4a48;"><TRbgcolor="#ececec"align="center"><TDwidth="54"height="24">玩法</TD><TDwidth="50">期号</TD><TDwidth="166">开奖号</TD><TDwidth="32"><FONTstyle="font-size:13px;">详情</FONT></TD><TDwidth="32"><FONTstyle="font-size:13px;">历史</FONT></TD><TDwidth="32"><FONTstyle="font-size:13px;">图表</FONT></TD></TR><TRalign="center"><TDheight="40"><FONT>大乐透</FONT></TD><TD>13082</TD><TDalign="left"><TABLEwidth='159'height='21'align='left'cellpadding='0'cellspacing='0'style='color:#ffffff;font-weight:bold;font-family:宋体;'><TRalign='center'><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>03</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>09</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>25</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>26</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>33</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20056.gif'style='color:#ffffff'>03</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20056.gif'style='color:#ffffff'>12</TD></TR></TABLE></TD><TD><Ahref='/news/11010219.shtml'target='_blank'><IMGsrc='/images/20014.gif'border='0'/></A></TD><TD><Ahref='/lottery/dlt/History.aspx'target="_blank"><IMGsrc="/images/20016.gif"border="0"/></A></TD><TD><Ahref='http://data.lottery.gov.cn/chart_tc2/chart.shtml?LotID=23529&ChartID=20001&StatType=0&MinIssue=2012026&MaxIssue=2012125&IssueTop=100&tab=0'target="_blank"><IMGsrc="/images/20017.gif"border="0"/></A></TD></TR><TR><TDcolspan='7'height='1'background='/images/20022.gif'></TD></TR><TRalign="center"><TDheight="40"><FONT>排列3</FONT></TD><TD>13191</TD><TDalign="left"><TABLEwidth='67'height='21'align='left'cellpadding='0'cellspacing='0'style='color:#000000;font-weight:bold;font-family:宋体;'><TRalign='center'><TDwidth='21'background='/images/20057.gif'style='color:#ffffff'>4</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20057.gif'style='color:#ffffff'>7</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20057.gif'style='color:#ffffff'>3</TD></TR></TABLE></TD><TD><Ahref='/news/11010220.shtml'target='_blank'><IMGsrc='/images/20014.gif'border='0'/></A></TD><TD><Ahref='/lottery/pls/History.aspx'target="_blank"><IMGsrc="/images/20016.gif"border="0"/></A></TD><TD><Ahref='http://data.lottery.gov.cn/chart_tc2/chart.shtml?LotID=33&ChartID=20001&StatType=0&MinIssue=2012263&MaxIssue=2012292&IssueTop=30&tab=0'target="_blank"><IMGsrc="/images/20017.gif"border="0"/></A></TD></TR><TR><TDcolspan='7'height='1'background='/images/20022.gif'></TD></TR><TRalign="center"><TDheight="40"><FONT>排列5</FONT></TD><TD>13191</TD><TDalign="left"><TABLEwidth='113'height='21'align='left'cellpadding='0'cellspacing='0'style='color:#000000;font-weight:bold;font-family:宋体;'><TRalign='center'><TDwidth='21'background='/images/20057.gif'style='color:#ffffff'>4</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20057.gif'style='color:#ffffff'>7</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20057.gif'style='color:#ffffff'>3</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20057.gif'style='color:#ffffff'>4</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20057.gif'style='color:#ffffff'>4</TD></TR></TABLE></TD><TD><Ahref='/news/11010221.shtml'target='_blank'><IMGsrc='/images/20014.gif'border='0'/></A></TD><TD><Ahref='/lottery/plw/History.aspx'target="_blank"><IMGsrc="/images/20016.gif"border="0"/></A></TD><TD><Ahref='http://data.lottery.gov.cn/chart_tc2/chart.shtml?LotID=35&ChartID=20001&StatType=0&MinIssue=&MaxIssue=&IssueTop=30'target="_blank"><IMGsrc="/images/20017.gif"border="0"/></A></TD></TR><TR><TDcolspan='7'height='1'background='/images/20022.gif'></TD></TR><TRalign="center"><TDheight="40"><FONT>22选5</FONT></TD><TD>13172</TD><TDalign="left"><TABLEwidth='113'height='21'align='left'cellpadding='0'cellspacing='0'style='color:#ffffff;font-weight:bold;font-family:宋体;'><TRalign='center'><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>08</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>09</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>14</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>15</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>19</TD></TR></TABLE></TD><TD><Ahref='/news/11009537.shtml'target='_blank'><IMGsrc='/images/20014.gif'border='0'/></A></TD><TD><Ahref='/lottery/eexw/History.aspx'target="_blank"><IMGsrc="/images/20016.gif"border="0"/></A></TD><TD><Ahref='http://data.lottery.gov.cn/chart_tc2/chart.shtml?LotID=23525&ChartID=20001&StatType=0&MinIssue=&MaxIssue=&IssueTop=30'target="_blank"><IMGsrc="/images/20017.gif"border="0"/></A></TD></TR><TR><TDcolspan='7'height='1'background='/images/20022.gif'></TD></TR><TRalign="center"><TDheight="40"><FONT>7星彩</FONT></TD><TD>13082</TD><TDalign="left"><TABLEwidth='159'height='21'align='left'cellpadding='0'cellspacing='0'style='color:#ffffff;font-weight:bold;font-family:宋体;'><TRalign='center'><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>6</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>0</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>8</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>0</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>1</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>4</TD><TDwidth='2'></TD><TDwidth='21'background='/images/20055.gif'style='color:#ffffff'>8</TD></TR></TABLE></TD><TD><Ahref='/news/11010180.shtml'target='_blank'><IMGsrc='/images/20014.gif'border='0'/></A></TD><TD><Ahref='/lottery/qxc/History.aspx'target="_blank"><IMGsrc="/images/20016.gif"border="0"/></A></TD><TD><Ahref='http://data.lottery.gov.cn/chart_tc2/chart.shtml?LotID=10022&ChartID=20001&StatType=0&MinIssue=&MaxIssue=&IssueTop=30'target="_blank"><IMGsrc="/images/20017.gif"border="0"/></A></TD></TR></tr><tr><TR><TDcolspan="6"height="31"background="/images/20078.gif"><TABLEwidth="360"align="center"cellpadding="0"cellspacing="0"border="0"><TR><TDcolspan="2"height="2"></TD></TR><TR><TDwidth="65"></TD><TDwidth="295">超级大乐透<spanid="LabelDLT"class="FontPool">1.71亿元</span>&nbsp;&nbsp;派奖<spanid="LabelQXC"class="FontPool">500万元</span></TD></TR></TABLE></TD></TR></TABLE><SCRIPTtype="text/javascript">var_bdhmProtocol=(("https:"==document.location.protocol)?"https://":"http://");document.write(unescape("%3Cscriptsrc='"+_bdhmProtocol+"hm.baidu.com/h.js%3F8929ffae85e1c07a7ded061329fbf441'type='text/javascript'%3E%3C/script%3E"));</SCRIPT></form></BODY></HTML>怎么写正则取出如下数据
解决方案五:
其实主页面采用了框架iframe,指向地址为因此你得到该地址的内容就可以了示例代码如下WebRequestwc=HttpWebRequest.Create("http://www.lottery.gov.cn/lottery/draws/Global.aspx");wc.ContentType="application/x-www-form-urlencoded;charset=gb2312";using(WebResponsewq=wc.GetResponse()){using(Streams=wq.GetResponseStream()){using(StreamReadersr=newStreamReader(s,Encoding.GetEncoding("utf-8"))){stringhtml=sr.ReadToEnd();stringpattern=@"(?i)<tr((?!.*?bgcolor)[^>]*?)>s*?<td[^>]*?>s*?<font>([^>]*?)</font>s*?</td>s*?<td[^>]*?>([^<>]*?)</td>s*?<td[^>]*?>s*?<table[^>]*?>[sS]*?(<td[^>]*?>((?<Num>d+)|s*?)</td>)*?s*?</tr>s*?[sS]*?</table>";varresult=Regex.Matches(html,pattern).OfType<Match>().Select(a=>new{玩法=a.Groups[2].Value,期号=a.Groups[3].Value,开奖号=string.Join("",a.Groups["Num"].Captures.OfType<Capture>().Select(b=>b.Value))});/*+[0]{玩法="大乐透",期号="13082",开奖号="03092526330312"}<AnonymousType>+[1]{玩法="排列3",期号="13191",开奖号="473"}<AnonymousType>+[2]{玩法="排列5",期号="13191",开奖号="47344"}<AnonymousType>+[3]{玩法="22选5",期号="13172",开奖号="0809141519"}<AnonymousType>+[4]{玩法="7星彩",期号="13082",开奖号="6080148"}<AnonymousType>*/}}

解决方案六:
爬取数据啊主要还是html分析可以使用htmlagilitypack参考http://www.cnblogs.com/wangchuang/archive/2013/03/11/2953638.html
解决方案七:
我已经得到该地址的内容,但是正则啊,我还是搞不定啊
解决方案八:
我没有自己写我现在使用的是ET你可以试试
解决方案九:
你不使用正则那就要学xpath,我建议在html解析的时候就使用xpath就可以了,比其它的解析方法要好的多。

时间: 2024-07-28 15:10:16

网站数据采集器怎么做的相关文章

企业网站该如何做高质量的自然外链来提升权重和排名

如今,在互联网上可以见到大大小小的企业网站,这些企业网站都奔着一个目的,那就是让那个企业网站能有一个好的权重.排名.流量,让企业的形象.产品.服务信息等通过网站的方式传递到每一个用户手上.然而随着企业网站的不断增多,竞争对手也是越来越多,企业为了让网站在同行的竞争里脱颖而出,不择手段的对网站做大量的优化,写原创.发外链.交换友链甚至做黑帽等,这些都是企业网站优化人员每天所做的工作,但企业网站最看重还是做外链这块,在企业优化人员和老总的眼里只有外链才可以做出最强劲的网站,当然在做外链的同时也要做好

网站是先做信息还是先要做功能呢?

昨天打开阿里巴巴的首页,突然感觉变了,似乎自己是否打开错了呢?仔细一看,没错,阿里的首页已经根据客户的需求,进行许多次的调整和改变,那么阿里巴巴首页的此次修改,到底是出于什么目的呢?笔者分析,阿里巴巴已经信息量达到了一个海量,是其他B2B无法相比得级别,无论是供求信息还是行业资讯以及论坛交流信息,所以从信息角度考虑,为了让会员更能快速找到所需要的信息外,一定要对信息进行合理的梳理,不然信息量一多,就会好无头绪,让会员迷失方向,会让有价值的信息变的盲目无价值了.其次,为了满足需求日异多元化的客户,

地方婚纱摄影行业网站该如何做优化

随着电子商务.信息大爆炸时代的到来,一些地方行业也开始针对自己目前面临的现状,进行网络营销,想迅速在电商时代占有一席之地.但是往往这些行业进来之后,会面临诸多的问题,或许传统经营做惯了,不是很擅长网络打法,那么笔者今天就围绕地方婚纱行业网站该如何做优化展开,推荐婚纱摄影行业人士阅读,也希望其他行业读者参与进来,大家可以举一反三. 那么我们都知道,地方婚纱摄影行业网站是一个高竞争度的网站,在一线城市,搜索相关关键词的话,会出现很多的竞价服务,说明这个行业的竞争已经非常的激烈了,众所周知,婚纱摄影行

与个人网站拜把做兄弟 搜索门户一片光明

     与个人网站拜把做兄弟 搜索门户一片光明 ,搜索引擎网站未来的出路在哪里?大家也许会说,技术技术技术,技术最重要.只要搜索速度快,搜索结果相关性好,就能站稳脚跟.     上面的答案也许很对.但是大家忽略了一个事实.无论搜索技术有多好,能好到哪里去?搜索技术的差别很微小.如果搜索技术足够好,没有人知道,没有人用,它的前途又在哪里?     搜索引擎网站要想发展,不但搜索技术要一流,更重要的是要与个人网站拜把做兄弟,这样搜索门户才能一片光明.这样可以把竞价排名做的更好,还能拿出更多的资金继

html-asp.net网站手机打开网站时跳转到另一个域名下,电脑打开网站时不做跳转,不影响百度搜索怎么弄啊

问题描述 asp.net网站手机打开网站时跳转到另一个域名下,电脑打开网站时不做跳转,不影响百度搜索怎么弄啊 asp.net网站手机打开网站时跳转到另一个域名下,电脑打开网站时不做跳转,不影响百度搜索怎么弄啊 解决方案 判断下useragent,如果是百度蜘蛛,就不要跳转 解决方案二: 去找段js代码,判断是否来自手机端 解决方案三: string osPat = "mozilla|m3gate|winwap|openwave|Windows NT|Windows 3.1|95|Blackcom

开源-急求助!!大神们知道这个水果拼团的网站是怎么做的吗?

问题描述 急求助!!大神们知道这个水果拼团的网站是怎么做的吗? 很急!在线等!!现在手机网站上很多这个 水果拼团的网站,功能都一样的,好像也不复杂!自己也想弄一个,可是码穷!不会写~! 想问下大神,这种网站是开源的吗?如果让人做一个,大概要多少银子! 谢谢! 比如:这个手机网站 :huazhong.yqphh.com

网站要想做大就得有自己的模式

现在很多人做网站就一个惯用模式:找套模板+改点图片+下个采集器+采集点文章. 好了,现在开始做seo或者请人帮忙看看优化了.说实话,在这些人的心里,做个网站太简单了,太不费劲了.就这么一个采集垃圾站,他们还当成宝贝似的,叫他扔了他还觉得是要他的命,日IP超过http://www.aliyun.com/zixun/aggregation/11629.html">100个就比娶了老婆还高兴. 你用的模板,N多人也在用啊,模板的功能是固定的,给你一家普通造纸厂,你是造不出来钞票的.有一点我承认,

ctphp-做博客小网站,如何做seo优化啊??

问题描述 做博客小网站,如何做seo优化啊?? 博客小网站如何做seo优化?博客系统有什么前景,该怎么做啊!我的博客是www.ctphp.com,大家有空来帮忙回答一下! 解决方案 http://lusongsong.com/reed/334.html

网站标题如何做才能吸引用户点击

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 从单纯的写关键词到思考如何写标题才能吸引用户点击,我经历了很长的过程,倘若没有seo研究中心老师的提醒,我恐怕也想不到这个层次上来.如今再回过头来想想,网站标题如何做才能吸引用户点击,唯有做好价值定位,走差异化路线. 一.旧的方法 在说如何做好网站标题价值定位和如何走差异化路线前,我们看一下之前或者现在还有人采用的网站标题的写法,来看看这么写