问题描述
<h3><ahref="http://www.edeng.cn/13/jiaju/"target="_blank">家居黄页</a></h3><p><ahref="http://www.edeng.cn/13/riyongbaihuo/"title="日用百货"target="_blank">日用百货</a>|<ahref="http://www.edeng.cn/13/jiajuzhuangshi/"title="家居装饰"target="_blank">已经获得了源代码GetSource,源文件中有如上代码,我现在要写个方法,就是要获得所有的链接,并且没有title属性的链接要删除掉,然后把得到的链接存进数据库。最后得到的结果应该是如下:http://www.edeng.cn/13/riyongbaihuo/http://www.edeng.cn/13/jiajuzhuangshi/最好是能用substring进行截取本人是新手,希望大家多多帮忙啊,多加点注释
解决方案
解决方案二:
stringtempStr=File.ReadAllText(@"C:DocumentsandSettingsAdministrator桌面Test.txt",Encoding.GetEncoding("GB2312"));//读取txstringpattern=@"(?i)<a[^>]+?href=(['""]?)([^'""]+)1[^>]+?title[^>]+?>";string[]ss=Regex.Matches(tempStr,pattern).Cast<Match>().Select(a=>a.Groups[2].Value).ToArray();/**[0]"http://www.edeng.cn/13/riyongbaihuo/"string[1]"http://www.edeng.cn/13/jiajuzhuangshi/"string*/