C#初学者,有关于采集后过滤的问题.在线等...

问题描述

stringstrHtmlCode="http://sports.sina.com.cn/k/2008-06-10/12133713169.shtml";GetHtmlClass.GetRemoteObjgr=newGetHtmlClass.GetRemoteObj();temp=gr.GetRemoteHtmlCode(strHtmlCode);stringContent=Sprider.GetHtmlContent.GetContent(temp.ToLower().Trim().Replace("rn",""),"<!--正文内容开始-->","<!--正文内容结束-->");//获取正文Content=Regex.Replace(Content,@"<ahref(?<a>[^>]*)>","",RegexOptions.IgnoreCase);//过滤正文超连接Content=Regex.Replace(Content,@"<!--(?<a>[^>]*)>","",RegexOptions.IgnoreCase);//过滤<!--></!-->Content=Content.Replace("</a>","");Content=Content.Replace("<-->","");Label1.Text=Content;要过滤采集过来的这个页里最下面的这些内容..请高手指教,,,新浪网关于版权的最新声明</p-->声明:新浪网独家稿件,转载请注明出处。</div></span><br/><spanid="Label2">http://sports.sina.com.cn/k/2008-06-10/12133713170.shtml</span><br/><spanid="Label3">齐小侠:湖人究竟怎么了?总决赛为何迎来反高潮src=http://i1.sinaimg.cn/ty/k/2008-06-10/U687P6T12D3713169F44DT20080610121359.jpg</span></div>这一段如何过滤啊...找了一天没找到答案..

解决方案

解决方案二:
利用正则过滤掉HTML标签啊匹配HTML标记的正则表达式:/<(.*)>.*</1>|<(.*)/>/

时间: 2025-01-30 11:42:31

C#初学者,有关于采集后过滤的问题.在线等...的相关文章

戏说SEO博客被W3SO网采集后必遭百度k

做好早上的一些工作后,就开始上QQ,然后就看到朋友在群里发了一个疑问说百度好像又开始疯狂了,一个全原创的博客,一夜之间就全没了.其实这个不怪百度,只是因为你博客太完美了,完美到百度妒忌,所以遭来杀身之祸.朱卫坤顺着他的博客,然后去复制他那些曾经收录后被拔毛的标题到百度搜索一下,结果依然看到熟悉的身影,W3SO网的网站出现了. 文章采集器">  W3SO网是一个神奇的网站,凭借百度对权威网站的加分值,加之他自己算是两三年的老网站,所以肆无忌惮的采摘其他seo博客也是没有太大关系,而且他的网站

网站被采集后被百度K 究竟谁之过

今天看到有人说被W3SO采集后新站容易被K.刚开始觉得有些不可思议,毕竟现在的互联网,信息复制转载仍是主要的内容之一.中小网站并不具备创造内容的条件,特别是论坛.博客等自由场地.对于优秀的内容,转来转去也是常见的.就算是有些知名的论坛,也会发现有些大半的帖子都是用户转自其它网站而来的.很明显,被采集了的网站是被认为复制了转载他的网站的内容,原创成了转载.转载成了原创.后来想想,自从百度6月更新算法以来,确实很多原创的网站受到了降权被K,也就不奇怪了.那这胡扯般的行为,究竟谁之过. 搜索引擎本身并

php图片采集后按原路径保存图片示例

 这篇文章主要介绍了phpphp图片采集后按原路径保存图片示例,需要的朋友可以参考下    代码如下: <?php $domain ='http://www.jb51.net'; $url = '/newskin/images/v4/logo.jpg'; $pats = pathinfo($url); $dir = '.'.$pats['dirname'].'/';   if(!is_dir($dir))    {     @mkdirs($dir, 0777);     @fclose(fop

phpcms采集-phpcms 采集后无法导入

问题描述 phpcms 采集后无法导入 phpcms 采集后数据后,部分采集数据没有以 ',) 结尾. array格式不完整,导致无法导入到栏目里. 拿出这个data字段的数据 长度都是65538. 是这个字段的最大抓取长度问题?? 但是我在数据库看 v9_collection_content 表中的 data 字段是text类型 不是数据库问题

php采集后的处理

    <?php/** * @name 采集后的处理.php * @date Sat Dec 22 02:07:45 CST 2007 * @copyright 马永占(MyZ) * @author 马永占(MyZ)  * @link http://blog.111cn.net/mayongzhan/ */ //采集后的文件,然后那来进行处理.这里的东西让我抄了5本书,是哪的不方便提供,自己找找吧. header(''Content-Type:text/html;charset=utf8'')

viewflipper-android ViewFlipper管理的子页面中Button设置setEnabled(false)后执行无效,在线急等

问题描述 android ViewFlipper管理的子页面中Button设置setEnabled(false)后执行无效,在线急等 android FrameLayout布局中ViewFlipper管理的子页面中添加添加控件Button.SeekBar等控件,代码动态设置这些控件为不可用setEnabled(false) 代码执行后无效,控件还是可以继续使用,求高手解答...在线等.. 如果对activity中的控件 该控件未在ViewFlipper管理的子页面中,如对Button设置 set

发售后出现断货在线订iPad2送货要等一个月

自上周五发售以来,苹果公司的iPad2就遭到"疯抢","断货"问题现在就来了.美国<纽约时报>今日报道称,iPad2在线预订面临4周左右的运送推迟. 报道称,一般情况下,苹果公司会让消费者提前一周预订新产品,并保证足够的库存在发售当天就开始运送.但是这次,苹果在iPad2发售后才开始启动在线预订. 报道指出,很明显自苹果发布iPad2以来,公司在满足巨大需求上出了问题.苹果公司直到发售日早晨才开通在线预订,送货时间也从原来的3到5天改为2到3周.在首发的

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)_php技巧

1.使用curl实现站外采集 具体请参考我上一篇笔记:http://www.jb51.net/article/46432.htm 2.编码转换首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码: 具体使用方法: 复制代码 代码如下: //源字符是$str //以下已知原编码为GBK,转换为utf-8 mb_convert_encoding($str, "UTF-8", "GBK"); //以下未知原编码,通过auto自

FastReport.NET能分组后过滤吗?

问题描述 如题,实现类型以下SQL的效果:SELECTB.LvlCode,B.OrgName,COUNT(A.UserId)ASTotalFROM[User]ASAINNERJOINdbo.OrganizationASBONB.OrgId=A.EmpOrgIdGROUPBYB.LvlCode,B.OrgNameHAVINGCOUNT(A.UserId)BETWEEN1AND5 解决方案