问题描述
我想用C#WINFORM从下面的HTML代码中提取出这些字符串:/group/topic/6430728//group/topic/6430727//group/topic/6430724//group/topic/6427958//group/topic/6428017//group/topic/6428014//group/topic/6428012//group/topic/6426198//group/topic/6426194//group/topic/6426192/HTML代码:<TABLEclass=olt><TBODY><TR><TD><TD>小组</TD><TD></TD><TDalign=right>回应</TD><TDalign=right>回应/发言时间</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6430728/"jQuery1242145370640="28">大家好</A></TD><TD><Ahref="/group/twinsphere/"jQuery1242145370640="29">双生球</A></TD><TD></TD><TDalign=right>0</TD><TDnoWrapalign=right> 2009-05-1218:49</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6430727/"jQuery1242145370640="30">大家好</A></TD><TD><Ahref="/group/iberia/"jQuery1242145370640="31">伊比利亚当代艺术中心</A></TD><TD></TD><TDalign=right>0</TD><TDnoWrapalign=right> 2009-05-1218:49</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6430724/"jQuery1242145370640="32">大家好</A></TD><TD><Ahref="/group/68275/"jQuery1242145370640="33">地星最小美术馆</A></TD><TD></TD><TDalign=right>0</TD><TDnoWrapalign=right> 2009-05-1218:48</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6427958/"jQuery1242145370640="34">大家好</A></TD><TD><Ahref="/group/68275/"jQuery1242145370640="35">地星最小美术馆</A></TD><TD></TD><TDalign=right>1</TD><TDnoWrapalign=right> 2009-05-1217:58</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6428017/"jQuery1242145370640="36">大家好</A></TD><TD><Ahref="/group/twinsphere/"jQuery1242145370640="37">双生球</A></TD><TD></TD><TDalign=right>0</TD><TDnoWrapalign=right> 2009-05-1216:00</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6428014/"jQuery1242145370640="38">大家好</A></TD><TD><Ahref="/group/iberia/"jQuery1242145370640="39">伊比利亚当代艺术中心</A></TD><TD></TD><TDalign=right>0</TD><TDnoWrapalign=right> 2009-05-1216:00</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6428012/"jQuery1242145370640="40">大家好</A></TD><TD><Ahref="/group/68275/"jQuery1242145370640="41">地星最小美术馆</A></TD><TD></TD><TDalign=right>0</TD><TDnoWrapalign=right> 2009-05-1216:00</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6426198/"jQuery1242145370640="42">消息标题</A></TD><TD><Ahref="/group/77694/"jQuery1242145370640="43">显摆H&M,ZARA…NB的人都是华丽丽的SB</A></TD><TD></TD><TDalign=right>0</TD><TDnoWrapalign=right> 2009-05-1214:14</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6426194/"jQuery1242145370640="44">消息标题</A></TD><TD><Ahref="/group/shopping.hk/"jQuery1242145370640="45">香港代购CLUB/淘爆HongKong</A></TD><TD></TD><TDalign=right>0</TD><TDnoWrapalign=right> 2009-05-1214:14</TD></TR><TRclass=pl><TD><Ahref="/group/topic/6426192/"jQuery1242145370640="46">消息标题</A></TD><TD><Ahref="/group/AquaCity/"jQuery1242145370640="47">南京水游城</A></TD><TD></TD><TDalign=right>0</TD>
这个问题我真的是在网上搜索了很长时间,自己也想不出来怎么弄,才问大家的,希望哪位高手能帮我写个函数出来,谢谢了。
解决方案
解决方案二:
stringsum="你的所有HTML";stringlist=System.Text.Regex.Match(sum,"href="/*/"jQuery").Groups[1].Value;//这样应该会得到group/topic/6426192这一坨你在加个东东进来,作一下分组就行了.
解决方案三:
stringlist=System.Text.Regex.Match(sum,"href="/(.*?)/"jQuery").Groups[1].Value;//这样应该会得到group/topic/6426192这一坨或是这样/
解决方案四:
不知道你具体是什么意思是HTML代码已经有了还是说想通过页面url获取该页面代码再获取想要的字符串如果已经有了的话那就好办了用截取字符串等等有很多方法例如有个方法可以获取一个字符串内所有某段字符串的位置是一个数组你可以获得/group/topic/的所有位置然后遍历每个位置将它包括后面的数字段都截取下来这个方法可能比较笨但是如果是通过网络获取的话我有个设想平时我们可以将字符串保存到文件将文件转换为html格式文件可以反其道而行将这个页面当作文件通过流获得整个页面的代码字符串再截取需要的字符串也许你不是需要这样做呵呵我的一点意见
解决方案五:
其实我想问的就是正则表达式该怎么写,我对正则表达式是一窍不通,wolfgroup写的正则表达式不知道你试了没有,好像有点不对
解决方案六:
用这个正则试试,[code=C#]Regexregex=newRegex(@"/group/topic/d+/");foreach(Matchminregex.Matches){//m.Value就是每一个匹配的/group/topic/.../}[code]
解决方案七:
Regexregex=newRegex(@"/group/topic/d+/");foreach(Matchminregex.Matches){//m.Value就是每一个匹配的/group/topic/.../}
解决方案八:
引用1楼wolfgroup的回复:
stringsum="你的所有HTML";stringlist=System.Text.Regex.Match(sum,"href="/*/"jQuery").Groups[1].Value;//这样应该会得到group/topic/6426192这一坨你在加个东东进来,作一下分组就行了.
我也支持这个方法
解决方案九:
Regexregex=newRegex(@"/group/topic/d+");
解决方案十:
tooeasy!嘿嘿哈西,快使出正则!
解决方案十一:
感谢楼上所有的兄弟,谢谢了,问题解决了