问题描述
我有这样一个程序,遍历HTML文档中的内容,把所有链接信息都获取出来然后判断链接地址的有效性。如<ahref="/aa/aa.html"></a>我用正则取出了href部分然后在判断链接地址的有效性,但有一种情况不知道该如何实现就是当href部分是脚本打开某个页面,比如<ahref="window.open('/aa/aa.html','','')"></a>我该怎样取里边的链接地址呢?
解决方案
解决方案二:
该回复于2008-07-08 11:50:53被版主删除
解决方案三:
取URL组href="(window.open(')?(?<url>[^"']+)
解决方案四:
stringstr="你请求的网址";stringstr2=gethtml(str);//得到原代码stringstrmp=string.empty;matchcollectionmc=regex.matches(str2,"href=['"]?(.*?)['"]");foreach(matchminmc){str2=m.groups[1].value;if(!str2.startwith("http")){str2=str+str2;//这里可以指定一套算法,过滤掉./如果是../那么remove最后一段/开头然后请求str2,如果发现错误,link失效!}}
解决方案五:
href="(window.open(')?(?<url>[^"']+)建议下载我的C#获取网页纯文本。
时间: 2024-09-29 17:04:48