求助,c#用正则表达式获取固定网站新闻内容

问题描述

比如说获取百度新闻"www.news,baidu.com"的的内容,该怎么写,现在只写出前半部分,获取了百度新闻网页的源代码,然后怎么用正则表达式来获取新闻列表和内容?有大神能帮忙写一下吗,最好能稍微解释一下,因为刚开始学,一片空白……,谢谢了前半部分:

解决方案

解决方案二:
首先,你要确定你要采集的网站的HTML信息,根据HTML信息才能匹配出正则表达式,然后用正则表达式筛选你想要的结果
解决方案三:
@"<ab[^<>]*?href=['""](?<url>[^'""]*)"

用这个匹配a标签,然后通过m.Groups["url"]取得对应的网址,再通过WebRequest模拟读取对应的网址内容,百度新闻上的地址都指向各个第三方网址,所以你还得为每个具体的网址写专门的内容读取方式(正则)
解决方案四:
是html的
解决方案五:
以前做过,恭喜你已经可以获取到原始网页,然后把他当成字符串用正则表达式把用的内容筛选出来。当然要找规律,就是看你要的列表是用什么字符分割,如TABLE,DT,下来差不多就是用正则表达式匹配
解决方案六:
protectedvoidPage_Load(objectsender,EventArgse){//Response.Clear();//Response.StatusCode=301;//Response.Status="301MovedPermanently";////Response.AddHeader("Location","http://"+Request.Url.Authority+"/ALLcatalog.aspx");//Response.AddHeader("Location","http://"+Request.Url.Authority+"/Default.aspx");//Response.End();switch(Request.QueryString["type"].ToString().ToLower()){case"meirong":Label1.Text="美容系列";////新浪化妆教室:妆美人============================================================================================================================stringhtmlCode1=GetHTML("http://eladies.sina.com.cn/beauty/makeup/index.shtml","gb2312");Regexr1=newRegex("{"title":"(?<title>.+)","url":"(?<lianjie>.+)","subtitle":"(?<xianshiming>.+)","time":"(?<shijian>.+)"}");MatchCollectionmar1=r1.Matches(htmlCode1);stringsOut1="";foreach(Matchm1inmar1){sOut1+="<li><atarget=_blankhref=article.aspx?type=meirong&id="+MD5.JiaMi(m1.Groups["lianjie"].Value)+">"+m1.Groups["title"].Value+"</a>"+m1.Groups["shijian"].Value.Substring(0,6)+"</li>";}Label2.Text=sOut1;break;case"chaoliu":Label1.Text="明星潮流";//明星潮流=============================================================================================================================================stringhtmlCode2=GetHTML("http://eladies.sina.com.cn/fa/jietou/index.shtml","gb2312");Regexr2=newRegex("{"title":"(?<title>.+)","url":"(?<lianjie>.+)","subtitle":"(?<xianshiming>.+)","time":"(?<shijian>.+)"}");MatchCollectionmar2=r2.Matches(htmlCode2);stringsOut2="";foreach(Matchm2inmar2){sOut2+="<li><atarget=_blankhref=article.aspx?type=chaoliu&id="+MD5.JiaMi(m2.Groups["lianjie"].Value)+">"+m2.Groups["title"].Value+"</a>"+m2.Groups["shijian"].Value.Substring(0,6)+"</li>";}Label2.Text=sOut2;break;case"dapei":Label1.Text="流行搭配";//流行装扮===============================================================================================================================================================stringhtmlCode3=GetHTML("http://eladies.sina.com.cn/fa/zhuangban/index.shtml","gb2312");Regexr3=newRegex("{"title":"(?<title>.+)","url":"(?<lianjie>.+)","subtitle":"(?<xianshiming>.+)","time":"(?<shijian>.+)"}");MatchCollectionmar3=r3.Matches(htmlCode3);stringsOut3="";foreach(Matchm3inmar3){sOut3+="<li><atarget=_blankhref=article.aspx?type=dapei&id="+MD5.JiaMi(m3.Groups["lianjie"].Value)+">"+m3.Groups["title"].Value+"</a>"+m3.Groups["shijian"].Value.Substring(0,6)+"</li>";}Label2.Text=sOut3;break;}}

时间: 2024-10-30 16:45:36

求助,c#用正则表达式获取固定网站新闻内容的相关文章

springmvc定时器任务如何获取其他网站的内容?

问题描述 springmvc定时器任务如何获取其他网站的内容? springmvc定时器任务如何获取其他网站的内容并且存入数据库? 解决方案 用httpclient抓取网页, 用正则表达式提取有用的数据

用Asp获取Dll加密新闻内容

以下是代码:<%on error resume next  Dim objXMLHTTP, xml  Set xml = Server.CreateObject("Microsoft.XMLHTTP")   xml.Open "GET", "http://chanye.finance.sina.com.cn/yj/2005-01-05/236914.shtml", False  xml.Send  tmpstr= xml.responseT

厉害的用Asp获取Dll加密新闻内容_应用技巧

以下是代码: 复制代码 代码如下: <%  on error resume next    Dim objXMLHTTP, xml    Set xml = Server.CreateObject("Microsoft.XMLHTTP")     xml.Open "GET", "http://chanye.finance.sina.com.cn/yj/2005-01-05/236914.shtml", False    xml.Send 

谷歌联袂美联社等四家媒体 增强网站新闻内容

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 根据介绍,为谷歌提供新闻内容及图片的四家通讯社分别为美联社.法新社.英国报纸联合社和加拿大通讯社.     8月30日,谷歌在其网站上推出由美联社及其他三家通讯社提供的新闻内容服务.此前谷歌新闻服务仅为提供内容预览,欲阅读全文的用户需点击相应链接进入原文发布网站. 根据介绍,为谷歌提供新闻内容及图片的四家通讯社分别为美联社.法新社.英国报纸联

用.net实现远程获取其他网站页面内容

页面 远程获取网页内容.经过一定的处理和灵活应用,可以开发成成体系网站内容采集系统.通常也叫做"新闻小偷"一般来说.做内容采集分为如下几个大致的步骤: 1.远程获取页面的全部Html源文本. 2.通过过滤处理,分析有效内容文本.(通常用正则表达式来截取有效数据) 3.将格式有效的数据,根据自己的数据库结构分标题,内容....一些其他属性保存到自己的本地数据库. ok整个采集过程如此简单.原理也不难.下面我们看看实现的具体基础代码! 首先我们来写一个获取远程Html源的方法. publi

php正则表达式获取标题关键词和内容代码

采集在现在的cms中都常常用到哦,下面我们就来看看关于php 正则表达式 取标题,关键词,内容代码源码哦. //获取标题   $inarr = array();   preg_match("/<title>(.*)</title>/isU",$body,$inarr);   if(isset($inarr[1]))   {    $redatas['title'] = $inarr[1];   } //获取关键词   $inarr = array();   pr

请教大家一个关于用正则表达式获取HTML内容的问题!

问题描述 我自己写了一个正则表达式,目的是获取HTML文件中<body></body>标签之间内容.程序可以编译,但我用运行的时候就报错了,内容大概如下:Exceptioninthread"main"java.lang.NoClassDefFoundError:Filter/classCausedby:java.lang.ClassNotFoundException:Filter.classatjava.net.URLClassLoader$1.run(Unkn

数据库-网站新闻动态后台要如何设计,如何获取更新状况

问题描述 网站新闻动态后台要如何设计,如何获取更新状况 解决方案 push.页面ajax异步请求后台数据

求大神帮忙写一个正则表达式php过滤编辑器的新闻内容

问题描述 求大神帮忙写一个正则表达式php过滤编辑器的新闻内容 从网站A数据库中读取的新闻内容(HTML源码格式)写入网站B的新闻表中,格式不统一,而且有很多冗余代码,很多是从office复制过去的,需要过滤掉网站A新闻内容中冗余的HTML代码.新闻内容在php的$NEWS字段中,给这个字段用正则表达式处理一下. 具体的代码说明写了个网页,方便大神看求助写正则表达式 后面是php连接查询的代码,方便大神测试,数据库mysql,表是editor,两个字段ID(INIT)和news(MEDIUMTE