问题描述
stringstrHtmlCode="http://sports.sina.com.cn/k/2008-06-10/12133713169.shtml";GetHtmlClass.GetRemoteObjgr=newGetHtmlClass.GetRemoteObj();temp=gr.GetRemoteHtmlCode(strHtmlCode);stringContent=Sprider.GetHtmlContent.GetContent(temp.ToLower().Trim().Replace("rn",""),"<!--正文内容开始-->","<!--正文内容结束-->");//获取正文Content=Regex.Replace(Content,@"<ahref(?<a>[^>]*)>","",RegexOptions.IgnoreCase);//过滤正文超连接Content=Regex.Replace(Content,@"<!--(?<a>[^>]*)>","",RegexOptions.IgnoreCase);//过滤<!--></!-->Content=Content.Replace("</a>","");Content=Content.Replace("<-->","");Label1.Text=Content;要过滤采集过来的这个页里最下面的这些内容..请高手指教,,,新浪网关于版权的最新声明</p-->声明:新浪网独家稿件,转载请注明出处。</div></span><br/><spanid="Label2">http://sports.sina.com.cn/k/2008-06-10/12133713170.shtml</span><br/><spanid="Label3">齐小侠:湖人究竟怎么了?总决赛为何迎来反高潮src=http://i1.sinaimg.cn/ty/k/2008-06-10/U687P6T12D3713169F44DT20080610121359.jpg</span></div>这一段如何过滤啊...找了一天没找到答案..
解决方案
解决方案二:
利用正则过滤掉HTML标签啊匹配HTML标记的正则表达式:/<(.*)>.*</1>|<(.*)/>/