求正则表达式,抓取下边红色标记内容,并求出<a></a>间内容及href内容,如:"/Info/2007-10/XTW20071013184427.htm"和<a></a>

问题描述

<ahref="http://www.huochepiao.com/rss/search.asp?chufa=北京&daoda=上海"><imgsrc="/rss/images/xml.gif"alt="火车票网北京到上海rss源"border="0"></a></B></TD></TR></TABLE><Ahref=http://www.qunar.com/twell/redirect.jsp?url=http://www.qunar.com/site/hotel.htm?hc=lkjdtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[酒店]火车站周边折扣酒店商务酒店经济连锁酒店低价小时房</b></font></a><br><Ahref=/feijipiao/kooxoo.asp?chufa=北京&daoda=上海target=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[比价]北京到上海特价机票实时搜索</b></font></a><br><Ahref=/feijipiao/baidu.asp?s=北京特价机票target=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[搜索]北京特价机票订票电话</b></font></a><TABLEcellSpacing=0cellPadding=0width="100%"bgColor=#f1f1f1border=0><TR><TDclass=S><Ahref=http://www.huochepiao.com/Info/2007-10/6MS20071021185435.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]十月特价票出来了!(北京首都机-全国各地城)每天张发车:10-26</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/02N20071021191059.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]3*折*飞*机票!(北京-全国各地)88张发车:10-31</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/7DY20071021222222.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]首都机场售票中心:(北京首都国-全国各地)10张发车:10-25</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/WRB20071021223328.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]机票2-7折<北京(北京<首都-全国各地)不限张发车:10-31</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/I9W2007102203732.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]北京三喜航空特价机(北京-各大城市)不限张发车:10-22</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/ICH2007102283842.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]北京南航售票处!!(北京首都机-全国各大城)88张发车:10-31</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/BEW2007102290905.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]特价机票●●(北京-全国各大城)不限张发车:10-29</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/0EP2007102293030.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]K681(北京-大连)4张发车:10-22</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/DZX20071022101659.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]机票超市(北京-所有城市)不限张发车:10-27</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/S2J20071022101818.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]特价机票!(北京-所有城市)不限张发车:10-28</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/RYE20071022104856.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]上海最大最专业的机(上海飞重庆-珠海郑州武)特价张发车:11-21</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/0WO20071022123643.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]特价机票★★(北京-全国各大城)不限张发车:10-31</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/3J220071022125939.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]特价机票[[(北京首都-全国各大城)68张发车:10-30</b></font></a><br><Ahref=http://www.huochepiao.com/Info/2007-10/JER20071022152731.htmtarget=_blank><fontcolor=#FF0000><b><imgsrc="/Images/istop.gif"alt="置顶"border="0">[转让]特价机票(北京-全国各地)10张发车:10-28</b></font></a><br></TD></TR></TABLE><Ahref=/Info/2007-10/05620071022143752.htmtarget=_blank>[求购]T103(北京-上海)数量2发车日期:2007-10-22</a><Ahref=http://www.huochepiao.com.cn/huochepiao/display.asp?DirectoryID=853333target=_blank>分站</a><br><Ahref=/Info/2007-10/45220071020191347.htmtarget=_blank>[求购]z5/z7/z13/z2...(北京..-上海..数量3张..发车日期:2007-10-22</a><Ahref=http://www.huochepiao.com.cn/huochepiao/display.asp?DirectoryID=852259target=_blank>分站</a><br><Ahref=/Info/2007-10/XTW20071013184427.htmtarget=_blank>[求购]T109/T103(北京-上海)数量1发车日期:2007-10-22</a><Ahref=http://www.huochepiao.com.cn/huochepiao/display.asp?DirectoryID=847595target=_blank>分站</a><br><Ahref=/Info/2007-9/OVX2007920201855.htmtarget=_blank>[紧急求购]T103,T109,Z5...(北京..-上海..数量2..发车日期:2008-9-30</a><Ahref=http://www.huochepiao.com.cn/huochepiao/display.asp?DirectoryID=762414target=_blank>分站</a><br></p><tableborder="0"align="center"cellpadding="0"><form><tr><tdheight="48"align="center"><fontcolor="#CCCCCC">[第一页][上一页]</font>

解决方案

解决方案二:
<Ahref=/Info/2007-10/05620071022143752.htmtarget=_blank>[求购]T103(北京-上海)数量2发车日期:2007-10-22</a><Ahref=/Info/2007-10/45220071020191347.htmtarget=_blank>[求购]z5/z7/z13/z2...(北京..-上海..数量3张..发车日期:2007-10-22</a><Ahref=/Info/2007-10/XTW20071013184427.htmtarget=_blank>[求购]T109/T103(北京-上海)数量1发车日期:2007-10-22</a><Ahref=/Info/2007-9/OVX2007920201855.htmtarget=_blank>[紧急求购]T103,T109,Z5...(北京..-上海..数量2..发车日期:2008-9-30</a>
解决方案三:
关注
解决方案四:
<ashref=/Info.*?</a>要是所有以Info开始的链接都要抓,可以试试这个,要是还有以Info开始的链接不抓取,那就只有找“过客”了,呵呵
解决方案五:
这个帖分过啊http://topic.csdn.net/u/20071023/13/198579f3-efec-4680-afea-bd23bf541d4f.html?seed=1146373875
解决方案六:
stringregexStr="\A<A\s+href=/Info/[^\.]+\.htm\s+target=_blank\s+>[^<]+</a\s+>\z";stringyourStr=...;MatchCollectionmc=Regex.Matches(yourStr,regexStr);foreach(Matchminmc){m.Value;}

解决方案七:
我试一下,谢谢各位!
解决方案八:
<Ahref=/Info/2007-9/OVX2007920201855.htmtarget=_blank>[紧急求购]T103,T109,Z5...(北京..-上海..数量2..发车日期:2008-9-30</a>得到这条数据后,怎样能得到“/Info/2007-9/OVX2007920201855.htm”及“[紧急求购]T103,T109,Z5...(北京..-上海..数量2..发车日期:2008-9-30”的值。
解决方案九:
<Ahref=/Info/2007-10/XTW20071013184427.htmtarget=_blank>[求购]T109/T103(北京-上海)数量1发车日期:2007-10-22</a>
解决方案十:
是上边的这条数据。
解决方案十一:
(?<=(<ashref=)).*?(?=>)(?<=(<a(s)*href=.*?>)).*?(?=(</a(s)*>))
解决方案十二:
(?<=(<a(s)*href=)).*?(?=>)(?<=(<a(s)*href=.*?>)).*?(?=(</a(s)*>))
解决方案十三:
谢谢,问题已解决.不过还有一个问题就是:例如下边一条数据<Ahref=/Info/2007-10/JBH2007102494206.htmtarget=_blank>[转让]预定(北京-上海)数量不限发车日期:2007-10-28</a>我怎样取出“/Info/2007-10/JBH2007102494206.htm”“[转让]预定(北京-上海)数量不限发车日期:2007-10-28”呢?谢谢wuhq030710914的热心帮助,可不可以把你的QQ号留一下呀!
解决方案十四:
我本菜鸟,呵呵QQ:475390715试试这两个(?<=(<a(s)*href=)).*?(?=(s)*)(?<=(<a(s)*href=.*?>)).*?(?=(</a(s)*>))看能不能取到你想要的内容
解决方案十五:
<Ahref=/Info[wW]+?>[^<]*?</a>

时间: 2024-10-25 13:59:54

求正则表达式,抓取下边红色标记内容,并求出&amp;lt;a&amp;gt;&amp;lt;/a&amp;gt;间内容及href内容,如:&amp;quot;/Info/2007-10/XTW20071013184427.htm&amp;quot;和&amp;lt;a&amp;gt;&amp;lt;/a&amp;gt;的相关文章

PHP正则表达式抓取某个标签的特定属性值的方法_正则表达式

php正则学了一些日子,抓了一些网站的数据,从而发现每次都自己写正则重新抓很麻烦,于是就想写一个抓取特定标签具有特定属性值的接口通用,直接上代码. //$html-被查找的字符串 $tag-被查找的标签 $attr-被查找的属性名 $value-被查找的属性值 function get_tag_data($html,$tag,$attr,$value){ $regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\

详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片_java

利用Java抓取网页上的所有图片: 用两个正则表达式: 1.匹配html中img标签的正则:<img.*src=(.*?)[^>]*?> 2.匹配img标签中得src中http路径的正则:http:\"?(.*?)(\"|>|\\s+) 实现: package org.swinglife.main; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream;

利用正则表达式抓取博客园列表数据_正则表达式

鉴于我在要完成的asp.net MVC 3 仿照博客园企业系统要用到测试数据,我自己输入太累,所以我就抓取了博客园的部分列表数据,还请dudu不要见怪. 在抓取博客园数据的时候采用了正则表达式,所以有不熟悉正则表达式的朋友可以参考相关资料,其实很容易掌握,就是在具体的实例中会花些时间. 现在我就来把我抓取博客园数据的过程叙述一下,如果有朋友有更好的意见,欢迎提出来. 要使用正则表达式抓取数据,首先就要创建一个正则表达式进行匹配,我推荐使用regulator,这个正则表达式工具,我们可以先使用这个

PHP正则表达式抓取某个标签的特定属性值的方法

php正则学了一些日子,抓了一些网站的数据,从而发现每次都自己写正则重新抓很麻烦,于是就想写一个抓取特定标签具有特定属性值的接口通用,直接上代码. //$html-被查找的字符串 $tag-被查找的标签 $attr-被查找的属性名 $value-被查找的属性值 function get_tag_data($html,$tag,$attr,$value){ $regex = "/<$tag.*?$attr=\".*?$value.*?\".*?>(.*?)<\

利用正则表达式抓取博客园列表数据

鉴于我在要完成的asp.net MVC 3 仿照博客园企业系统要用到测试数据,我自己输入太累,所以我就抓取了博客园的部分列表数据,还请dudu不要见怪. 在抓取博客园数据的时候采用了正则表达式,所以有不熟悉正则表达式的朋友可以参考相关资料,其实很容易掌握,就是在具体的实例中会花些时间. 现在我就来把我抓取博客园数据的过程叙述一下,如果有朋友有更好的意见,欢迎提出来. 要使用正则表达式抓取数据,首先就要创建一个正则表达式进行匹配,我推荐使用regulator,这个正则表达式工具,我们可以先使用这个

httpunit-java 正则表达式 抓取2行特定中文词语中的一段中文

问题描述 java 正则表达式 抓取2行特定中文词语中的一段中文 老师让我们做一个能从汉字网站http://hanyu.iciba.com上抓取汉字信息的爬虫,现在遇到了一个难题,下面是我用httpunit解析出来的某个字的部分信息. 龙 繁体 龍 笔画 5笔 造字法 原为形声 部首 龙部 五笔 DXV 结构 单一结构 比如说现在我要截取这个字的部首,也就是部首和五笔这2行字中间的那段字,那正则表达式是不是就是"部首.五笔",但是这样做了之后什么也没有截取出来,能告诉我怎么写这个表达式

socket-c语言正则表达式抓取网站的&amp;amp;lt;title&amp;amp;gt;

问题描述 c语言正则表达式抓取网站的<title> 本程序的功能是搜索网站的 字段的值 遗憾的是并不通用:ps:我也不知道为什么失败 问题1:正则表达式或运算消除标签大小写后匹配不到字符串 问题2:正则表达式实现零宽断言后发现匹配不到字符串 问题3:在科大官网上测试 成功 在其他网站可能会失败 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/types.h

python正则表达式抓取成语网站_python

1.首先找到一个在线成语网站 2.查看网页结构,定义正则式 看一下要抓的成语的标签有什么特点,查看源码,可以发现要抓的成语都在<a>标签中,如:<a href="/cy0/93.html">安如磐石</a>,成语事实上就是一个瞄文本,不同成语指向的链接不同,其实也就"/cy0/93.html"中的数字不同,所以正则式里匹配两次数字就行了,定义正则式 reg =   "<a href=\"/cy(\d+)/

php使用curl和正则表达式抓取网页数据示例_php实例

利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说. 依赖项:curl 可以简单的看下,里面用到了curl ,正则表达式,ajax等技术,适合新手看看.在本地测试,必须保证联网并且确保php开启curl的mode SpiderTools.class.php 复制代码 代码如下: <?php   session_start();  //封装成类 开启这些自动抓取文章   #header("Refresh:30;http://www.test.co