请问各位大侠如何从网页中提取正文文本

问题描述

各位高手,请教个问题,就比如下面一堆html代码,如何把新闻的正文文本提取出来(除了文字什么都不要!!!!) “针对“回拨陌生未接来电可能产生高额吸费”的传言,工业和信息化部清算司负责人16日说,通过大量详尽调查,高额吸费基本不存在可能性,这是不法分子为推销所谓群呼设备利用互联网所做的欺诈性宣传,公众应谨防受骗上当。</P><P>  通过调查,目前的非正常未接电话主要有三种:一是部分企业诱导用户回拨电话进行广告宣传;二是部分不法分子诱导用户回拨电话进行六合彩等信息宣传;三是部分不法分子诱导用户回拨电话进行诈骗活动。</P><P>  有报道中提出“高额吸费设备通过卫星转接器,自动转接到国外或台湾地区产生高额话费”。工业和信息化部清算司负责人认为,无论用户所拨打的电话呼转到何地,接通后主叫用户只需要支付从主叫号码到所拨打的号码之间的通信费,而被拨打号码的用户则需要支付从被拨打号码到其设置的呼叫转移号码之间的费用。因此,对用户而言,并不需要关心所拨打的号码呼转到了哪里,因为用户只支付从自己号码到拨打的显示电话号码之间的费用。</P><P>  还有报道中提到的“声讯台或信息服务(SP)企业通过群呼诱导用户回拨被高额扣费”的情况在当前也基本不存在可能性。经过SP专项治理后,已经完善了相关政策制度,用户使用相关语音信息服务前需经用户确认,在用户拨打声讯台或SP业务平台时,电信企业先行免费播放语音通知,告知用户相关服务的资费标准、收费的整体构成,并在得到用户按键确认或语音通知播放完毕6秒后开始计信息费,且语音类信息服务的资费标准大多数都在2元/分钟以下。</P><P>  因此,这位负责人提醒用户不必为此推销群呼设备的欺诈性宣传惊慌。在遇到响一声就挂的未接陌生来电时,用户应谨慎回拨,尤其是来电显示号码为国际长途字冠的“00”或“+”时,已开通国际长途拨打权限的用户回拨后可能产生相应的国际长途电话费用,但不会产生高额的信息费。</P><P>  同时,如果用户回拨未接陌生来电后,发现为非正常通话情况时,可以向各电信企业客服电话进行举报,尤其涉及广告宣传、六合彩、中奖诈骗等行为时,要及时向工商、公安等相关职能部门举报。</P><P>  工业和信息化部同时再次公布投诉电话号码。目前六大基础电信企业的客服电话为:中国电信10000,中国网<!>通10060,中国移<!>动10086,中<!>国联通10010,中国卫通10070,中国铁通10050。涉及电信服务或收费问题可向通信主管部门设立的电信用户申诉受理中心进行申诉,北京市电信用户申诉受理中心:(010)68212300;其他地区电信用户申诉受理中心:直辖市或省会区号+12300;信息产业部电信用户申诉受理中心:(010)12300。”想提取出来的就是以上这些,当然了<>这些就不要了,以下是这篇网页代码的一部分(想全贴上。空间不够),各位帮帮忙。。。<DIVclass=split></DIV><!--正文开始--><TABLEclass=vsplitcellSpacing=0cellPadding=0width=950><TBODY><TR><TDclass=lc_bluevAlign=topwidth=640><DIVclass=lcBlk><DIVid=artibodyTitle><H1>工业和信息化部:回拨陌生来电不可能被高额扣费</H1><DIVclass=from_info>http://www.sina.com.cn2008年04月16日&nbsp;16:57&nbsp;<FONTcolor=#a20010><SPANclass=linkRed02><Ahref="http://www.xinhuanet.com/"target=_blank>新华网</A></SPAN></FONT></DIV></DIV><!--正文内容开始--><!--google_ad_section_start--><DIVclass=artibodyid=artibody><!--正文内部文字导航:begin--><!--正文内部文字导航:end--><CENTER></CENTER><P>  新华网北京4月16日电(记者冯晓芳)针对“回拨陌生未接来电可能产生高额吸费”的传言,工业和信息化部清算司负责人16日说,通过大量详尽调查,高额吸费基本不存在可能性,这是不法分子为推销所谓群呼设备利用互联网所做的欺诈性宣传,公众应谨防受骗上当。</P><P>  通过调查,目前的非正常未接电话主要有三种:一是部分企业诱导用户回拨电话进行广告宣传;二是部分不法分子诱导用户回拨电话进行六合彩等信息宣传;三是部分不法分子诱导用户回拨电话进行诈骗活动。</P><P>  有报道中提出“高额吸费设备通过卫星转接器,自动转接到国外或台湾地区产生高额话费”。工业和信息化部清算司负责人认为,无论用户所拨打的电话呼转到何地,接通后主叫用户只需要支付从主叫号码到所拨打的号码之间的通信费,而被拨打号码的用户则需要支付从被拨打号码到其设置的呼叫转移号码之间的费用。因此,对用户而言,并不需要关心所拨打的号码呼转到了哪里,因为用户只支付从自己号码到拨打的显示电话号码之间的费用。</P><P>  还有报道中提到的“声讯台或信息服务(SP)企业通过群呼诱导用户回拨被高额扣费”的情况在当前也基本不存在可能性。经过SP专项治理后,已经完善了相关政策制度,用户使用相关语音信息服务前需经用户确认,在用户拨打声讯台或SP业务平台时,电信企业先行免费播放语音通知,告知用户相关服务的资费标准、收费的整体构成,并在得到用户按键确认或语音通知播放完毕6秒后开始计信息费,且语音类信息服务的资费标准大多数都在2元/分钟以下。</P><P>  因此,这位负责人提醒用户不必为此推销群呼设备的欺诈性宣传惊慌。在遇到响一声就挂的未接陌生来电时,用户应谨慎回拨,尤其是来电显示号码为国际长途字冠的“00”或“+”时,已开通国际长途拨打权限的用户回拨后可能产生相应的国际长途电话费用,但不会产生高额的信息费。</P><P>  同时,如果用户回拨未接陌生来电后,发现为非正常通话情况时,可以向各电信企业客服电话进行举报,尤其涉及广告宣传、六合彩、中奖诈骗等行为时,要及时向工商、公安等相关职能部门举报。</P><P>  工业和信息化部同时再次公布投诉电话号码。目前六大基础电信企业的客服电话为:中国电信10000,中国网<!>通10060,中国移<!>动10086,中<!>国联通10010,中国卫通10070,中国铁通10050。涉及电信服务或收费问题可向通信主管部门设立的电信用户申诉受理中心进行申诉,北京市电信用户申诉受理中心:(010)68212300;其他地区电信用户申诉受理中心:直辖市或省会区号+12300;信息产业部电信用户申诉受理中心:(010)12300。</P><P></P><!--wapdumpbegin--><TABLEstyle="BORDER-RIGHT:#7cc3ec1pxsolid;BORDER-TOP:#7cc3ec1pxsolid;BORDER-LEFT:#7cc3ec1pxsolid;BORDER-BOTTOM:#7cc3ec1pxsolid"cellSpacing=0cellPadding=0width=320align=centerbgColor=#ddeffc><TBODY><TR><TDstyle="FONT-SIZE:12px"align=middlebackground=工业和信息化部:回拨陌生来电不可能被高额扣费_通讯与电讯_科技时代_新浪网.files/xw_s6_lj_018.gifheight=20><SPANclass=a02><FONTstyle="TEXT-DECORATION:none"color=#00008c><B>&nbsp;</B></FONT></SPAN><B><Aname=diaocha><U><FONTcolor=#000099>欢迎参与调查</FONT></U></A></B></TD></TR><TR><TDstyle="FONT-SIZE:12px"align=middle><TABLEstyle="MARGIN-LEFT:2px"cellSpacing=0width="100%"bgColor=#ddeffc><TBODY><TR><TDstyle="FONT-SIZE:12px"align=leftbgColor=#eff4f7><TABLEcellSpacing=1cellPadding=5width="100%"><TBODY><TRvAlign=top><TDclass=l15style="TEXT-ALIGN:justify"bgColor=#ffffff><SCRIPTlanguage=JavaScript><!--functionsurvey_Opener_23577(domain){vardol=document.domain.length;if(document.domain.substr(dol-11,11)=='sina.com.cn'){document.domain="sina.com.cn";}if(domain!=""){newWindow=window.open(domain,"survey_server","toolbar,resizable,scrollbars,dependent,width=500,height=420,left=150,top=80");newWindow.focus();}else{newWindow=window.open(domain,"survey_server","toolbar,resizable,scrollbars,dependent,width=500,height=420,left=150,top=80");newWindow.focus();document.survey_23577.submit();}returnfalse;}//--></SCRIPT><FORMname=survey_23577action=http://survey.news.sina.com.cn/polling.phpmethod=posttarget=survey_server><BR>-<B>您遭遇过响一声电话么?</B><BR><INPUTtype=radiovalue=14039name=q_1706>经常<BR><INPUTtype=radiovalue=14040name=q_1706>偶尔<BR><INPUTtype=radiovalue=14041name=q_1706>没有<BR><BR>-<B>您的工作生活是否受到响一声电话的影响?</B><BR><INPUTtype=radiovalue=14042name=q_1707>罪大恶极,无心睡眠<BR><INPUTtype=radiovalue=14043name=q_1707>无所谓,还能忍受<BR><BR>-<B>您对运营商的相关处理满意么?</B><BR><INPUTtype=radiovalue=14044name=q_1708>满意<BR><INPUTtype=radiovalue=14045name=q_1708>不满意<BR><BR><INPUTtype=hiddenvalue=23577name=poll_id><INPUTtype=hiddenname=ad_url><INPUTonclick="returnsurvey_Opener_23577('');"type=submitvalue=提交><INPUTonclick="returnsurvey_Opener_23577('http://survey.news.sina.com.cn/voteresult.php?pid=23577');"type=buttonvalue=查看name=viewresult>

解决方案

解决方案二:
呵呵,写的有点乱,可能各位看着麻烦,其实问题就是从一个新闻页面中提取出正文部分,作为我下一步进行文本挖掘的数据源,请各位高手不吝赐教
解决方案三:
计算机还没这么智能,模式识别只能对特定网站,网页格式已知的网页有效。
解决方案四:
可以用正规表达式或者其它的一些字符串操作方法去移除掉所有的Htmltags,但是不能判断哪里是正文,除非针对某一特定的站点.
解决方案五:
可能没有百分百精确度的提取算法。应该有通过一些结构或内容条件进行判断的吧!!!不太懂,但是这一步还是需要做的,难道就没有什么方法吗???
解决方案六:
要进行模式识别,你得有一个固定的模式才行
解决方案七:
抓普通网页,是死程序?抓rss网页,一劳永逸?
解决方案八:
id=artibody>[sS]*?(记者s{1,10}.*?)([sS]*?)<P>s{1,5}</P>//以上表达式是比较保险的写法
解决方案九:
usingSystem;usingSystem.Net;usingSystem.IO;usingSystem.Text.RegularExpressions;usingSystem.Text;publicclassTest{staticvoidMain(){stringstrLink="http://topic.csdn.net/u/20080425/19/be0cbb1a-d4f9-4c88-96d7-2c2750f6091a.html?seed=797243948";//这是你提问的帖子地址stringstrHtml=GetHtml(strLink);//csdn编码utf8,你发的代码太长我想从这份帖子当中提取你说的源代码,得到你说的源代码后,然后取新闻正文strHtml=GetList(strHtml,@"各位帮帮忙。。。([sS]*?)问题点数:",false);stringstrNewsContent=GetList(strHtml,@"id=artibody.*?>[sS]*?(记者.{1,20})([sS]*?)&lt;P&gt;&lt;/P&gt;",true);//<>都被转码了,你应该清楚// 你可能看到最终的结果含有</P><P>,我说过了这是浏览器的转义,如果你在html写<>他是不会显示的所以必须转义才可以显示<>在浏览器上//累死我了Console.ReadKey();//你可以经过单步调试来查看,这样可以更好的理解代码}staticstringGetHtml(stringstrLink){WebRequestrequest=WebRequest.Create(strLink);//有些网站需要代理,但csdn不要,我测试过的Streamstream=null;StreamReaderreader=null;stringstrResults="";try{using(stream=request.GetResponse().GetResponseStream()){using(reader=newStreamReader(stream)){strResults=reader.ReadToEnd();}}}catch{}finally{request.Abort();stream.Dispose();stream.Close();reader.Dispose();reader.Close();}returnstrResults;}staticstringGetList(stringstrHtml,stringstrRegex,boolfilterHtml){stringstrContent=Regex.Match(strHtml,strRegex).Groups[1].Value;if(filterHtml){strContent=Regex.Replace(strContent,"<.*?>","").Replace("&nbsp;","").Replace("&lt;","<").Replace("&gt;",">");}returnstrContent;}}

解决方案十:
楼上的达人真是热心,连注释都写得这么详细。真的太感谢了,我这里有几个问题想再请教,1.我对正则不太懂,@"各位帮帮忙。。。([sS]*?)问题点数:"的意思是从“各位帮帮忙”一直提取文本到“问题点数”吗?2.@"id=artibody.*?>[sS]*?(记者.{1,20})([sS]*?)&lt;P&gt;&lt;/P&gt;"这个更复杂,完全理解不了了。是因为这篇文章的正文从(记者冯晓芳)开始,所以可以这么用吗?如果正文不是从记者开始就不适用了吗?(不过能做到基于一个模板就已经很了不起了,呵呵,我有点贪了)3.vc里面对正则表达式支持吗?呵呵,我对c#不了解啊。再次感谢楼上这位达人!!!!
解决方案十一:
vc我没学过...[sS]*?任意字符仅少匹配比如说abcabcabc正则表达式为a[sS]*?c:匹配结果为abc如果是a([sS]*?)c匹配结果也是abc只不过这个里面有一个组,组名为1,存储的内容为b
解决方案十二:
正则表达式进行匹配
解决方案十三:
该回复于2008-05-01 17:27:47被版主删除
解决方案十四:
直通车-访客快捷免费回呼电话(http://call.vtoc.cn/)网络营销只是新营销方式,而不会改变其本质。在营销过程中,最为关键的环节是双方的“沟通”,生意是“谈”成的,不是看成的!如何将访问流量,变成实际的销量?如何把匆匆过客,变为忠实的顾客?如果抓住潜在客户稍纵即逝的瞬间兴趣?将Vcall回呼电话布置在企业的网站上面,不仅让客户找到你,更重要是让客户积极主动在第一时间和你沟通、洽谈。根据调查,点击的生意达1、VCALL免费电话一款新型的网络推广工具,该产品结合了互联网和传统电话网的优势,适合于在网上有推广需求、提升服务质量的各类企业,可广泛应用于企业销售、客户服务等领域。2、VCALL免费电话对访客来讲是完全免费的,访客只要通过点击网页上的按钮就可以和企业服务人员进行语音交流和沟通。通过VCALL免费电话的服务为访客带来了极大的利,使访客能够购买到称心的产品和获得更好的服务。3、企业通过在网站部署VCALL免费电话或使用VIM网络客服系统捆绑的VCALL免费电话功能,不仅可以大大拉近企业和访客的距离,增强与客户的沟通,提高服务质量,也可以为企业(或商家)增加商业机会,从而为企业带来更多的销售收入VCALL免费热线主要特点:提升服务,展现品牌,只有精准,减少浪费!1、实时性强:所见即所得,第一时间响应。2、成本低廉:无需硬件添置和通讯费投入。3、易于实施:模块化定制,无需硬件及软件安装,即开即用,简单快捷。4、智能方便:不遗漏任何来电,工作时段和非工作时段均可接受咨询交流。5、让企业的网站成为免费拨打电话咨询交流的工具,有效提升访问量,增强网站粘性!客户想货比三家,就流失到竞争对手那里了。客户行动力不强,不愿主动打电话。客户不太想花电话费,尤其是长途。花几千、几万元做的网站,还要每月再花几千、几万元做网络推广,每100人浏览网站,成交的只有一两个甚至还不到,网站成了摆设。调查显示:网站拥有免费电话比没有免费电话,能够多接80%的来电,生意成功率提高了90%以上。 CALL免费热线=更多来电=更多机会=更多财富赶快提升企业网站的产品和服务形象,请选用VCALL免费回呼热线,让企业网站拥有免费电话。联系人:王先生联系电话:0592-5284444联系qq:306521089Eamil:bioom666@163.com详情请登录产品网址:http://call.vtoc.cn/

时间: 2024-08-31 03:22:21

请问各位大侠如何从网页中提取正文文本的相关文章

请问python有没有读取网页中所有jpg图片链接并下载的实例?

问题描述 请问python有没有读取网页中所有jpg图片链接并下载的实例? 我想来学习下,自己弄了运行抓取不全,知道的说下吧. 谢 谢了. 解决方案 抓取不全找找原因,是遍历html文档中的图片没有找全还是下载某些图片的时候遇到错误没有下载下来. 解决方案二: 可以使用scrapy,python下最强大的爬虫框架http://scrapy.org/

如何自己写代码从pdf文件中提取纯文本

问题描述 最近做一个毕设,关于从pdf文件中提取纯文本的.从网上找了一段C写的代码,可以简单的实现从pdf中抽取文本,不过,只能提取英文,而不能提取汉字.研究了几天了,仍无头绪,急求大侠帮忙.下面附上c语言代码.#include<stdio.h>#include<windows.h>//YOurprojectmustalsoincludezdll.lib(ZLIB)asadependency.//ZLIBcanbefreelydownloadedfromtheinternet,ww

《HTML5 开发实例大全》——1.24 在网页中显示一个文本框架

1.24 在网页中显示一个文本框架 实例说明 在HTML 5 中,< iframe >元素的功能是在页面中创建包含另一文档的框架.出于对页面安全性的考虑,HTML 5不再支持< frame >框架元素,包括< frameset >框架集元素,但仍然支持< iframe >元素,只是该元素的一些原有属性不再被支持,而仅仅支持"src"属性. 众所周知,当使用< iframe >元素包含了另一个页面时,这一操作的安全性会让开发者担

请问怎么能够获取一个网页中的所有link对象?

问题描述 大牛可不可以告知下方法?具体实现更佳 解决方案 解决方案二:我想给一个域名中的所有网址进行排名,方法就是先下载若干个页面,循环检测每个页面中的所有link网址,同时累加相应pagerank值,最后输出排名,但是我不知道怎么去获取一个网页中的所有link...解决方案三:webBrowser1.Document.Links解决方案四:要求是把若干个网页保存在硬盘中,然后对这几个网页分析,提取link,请问还能用这个方法吗?解决方案五:能不能这样实现,加载一个网页,用它初始化一个Docum

怎么从网页中提取数据?

问题描述 C#程序通过HttpWebRequest和HttpWebResponse获取到网页的源码,我想从中提取出想要的数据,例如股票数据.分析源文件,想要的股票数据应该在下列JS写的网页源码中:<trclass="Tb1Now"><tdclass="Tb1Li">当前价(元)</td><tdid="itemCurrent2"class="red">-</td><

Python提取网页中的超链接地址方法

最近正在学习Python,打算用作爬虫开发.既然要做爬虫,首先就要抓取网页,并且从网页中提取出超链接地址. 下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接,代码如下:  代码如下 复制代码 import urllib2 import re url = 'http://www.111cn.net/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.c

使用Dreamweaver在网页中插入Flash按钮与文本

dreamweaver|按钮|插入|网页 Flash 的动画按钮能够给网站带来动感,这让不少读者觉得十分有趣,同时也为网站增加了许多访客,其实在 Dreamweaver MX 2004 中只需几步简单的操作,就可以插入 Flash 按钮. 一.在网页中插入Flash 按钮 ( 1 )打开 Dreamweaver MX 2004 软件,新建文件并保存页面.(提示:要保存的文件夹不可以用中文名命名) ( 2 )插入 Flash 按钮并设置参数,如图1.2 所示. ( 3 )保存文件,完成操作.简单的

网页中插入Flash按钮与文本

  Flash 的动画按钮能够给网站带来动感,这让不少读者觉得十分有趣,同时也为网站增加了许多访客,其实在 Dreamweaver MX 2004 中只需几步简单的操作,就可以插入 Flash 按钮. 一.在网页中插入Flash 按钮 ( 1 )打开 Dreamweaver MX 2004 软件,新建文件并保存页面.(提示:要保存的文件夹不可以用中文名命名) ( 2 )插入 Flash 按钮并设置参数,如图1.2 所示. ( 3 )保存文件,完成操作.简单的 Flash 按钮也可通过 Dream

Dreamweaver网页中插入Flash按钮与文本

  Flash 的动画按钮能够给网站带来动感,这让不少读者觉得十分有趣,同时也为网站增加了许多访客,其实在 Dreamweaver MX 2004 中只需几步简单的操作,就可以插入 Flash 按钮. 一.在网页中插入Flash 按钮 ( 1 )打开 Dreamweaver MX 2004 软件,新建文件并保存页面.(提示:要保存的文件夹不可以用中文名命名) ( 2 )插入 Flash 按钮并设置参数,如图1.2 所示. ( 3 )保存文件,完成操作.简单的 Flash 按钮也可通过 Dream