PHP正则表达式提取超链接及其标题

有这么一段HTML，比较不规则的，如果要提取其中的链接地址和链接名称，怎么弄？

//HTML

$str = '<a id="top8" href="http://list.MP3.baidu.com/song/A.htm?top8" class="p14" target="_top">歌曲列表</a><br><a target="_blank" id="bp" href="http://list.mp3.baidu.com/list/bangping.html" class="p14">中文金曲榜</a><br><td nowrap="nowrap">• <a id="top19" href="qingyinyue.html?top19" class="p14" target="_top">轻音乐</a></td>';

利用正则表达式是最简单的，其它的办法，偶米去想。。。

$pat = '/<a(.*?)href="(.*?)"(.*?)>(.*?)<\/a>/i'; preg_match_all($pat, $str, $m);

输出方法：

print_r($m[2]); print_r($m[4]);

或者：

for($i=0;$i<count($m[2]) ;$i++ ){ echo '<li><a href="'.$_SERVER['PHP_SELF'].'?url='.$m[2][$i].'">'.$m[4][$i].'</a>'; }

显示结果是：

Array ( [0] => http://list.mp3.baidu.com/song/A.htm?top8 [1] => http://list.mp3.baidu.com/list/bangping.html [2] => qingyinyue.html?top19 ) Array ( [0] => 歌曲列表 [1] => 中文金曲榜 [2] => 轻音乐 )

于是，我们要采集某个网站的标题及链接地址方法就出来了。自己套用吧。

时间： 2024-09-10 20:45:49

PHP正则表达式提取超链接及其标题的相关文章

正则表达式提取网址、标题、图片等一例（.Net Asp Javascript/Js）的实现_正则表达式

在一些抓取.过滤等情况下, 正则表达式 regular expression 的优势是很明显的. 例如,有如下的字符串: 复制代码代码如下: <li><a href="http://www.abcxyz.com/something/article/143.htm" title="FCKEditor高亮代码插件测试"><span class="article-date">[09/11]</span>

PHP正则表达式提取html超链接中的href地址

用php的正则表达式相关函数,实现提取html超链接<a href="地址"></a>中的地址. 代码如下复制代码 <?php $preg='/<a .*?href="(.*?)".*?>/is'; $str ='<a href="链接1">URLNAME</a>文本段1<a href="链接2" target="_blank"&g

PHP用正则表达式提取网页链接地址

如下面代码,用正则表达式提取其中的链接地址以下是引用片段:<div class="pic" id="s3"> <a title=list href="http://www.alixixi.com/down/" target="_blank">阿里西西源码下载频道</a> <a href="http://js.alixixi.com/" target="

python使用正则表达式提取网页URL的方法

本文实例讲述了python使用正则表达式提取网页URL的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 import re import urllib url="http://www.3lian.net" s=urllib.urlopen(url).read() ss=s.replace(" ","") urls=re.findall(r"<a.*?href=.*?</a&g

PHP中使用正则表达式提取中文实现笔记

这篇文章主要介绍了PHP中使用正则表达式提取中文实现笔记,本文还讲解了韩文.日文的正则表达式,并同时给出实现代码和使用示例,需要的朋友可以参考下最近老板叫做一个数据查重的小练习,涉及从一个包含中文字段的文件中提取出其中的中文字段并存储,使用php开发.中间涉及到php正则表达式中文匹配的问题,网上搜罗一大片,但是也很乱没有一个准信儿,经过自己的代码的修改和检验,先将extract函数写下. 首先要注意到的是,双字节字符的编码问题,这里我们以后还可能会遇到像韩文.日文等编码问题,与中文理

php使用正则表达式提取字符串中尖括号、小括号、中括号、大括号中的字符

PHP使用正则表达式提取字符串中尖括号<>.小括号().中括号[].大括号{}中的字符示例,需要的朋友可以参考下代码如下: $str="你好<我>(爱)[北京]{天安门}"; echo f1($str); //返回你好 echo f2($str); //返回我 echo f3($str); //返回爱 echo f4($str); //返回北京 echo f5($str); //返回天安门 function f1($str) {

基于Python正则表达式提取搜索结果中的站点地址

正则表达式对于Python来说并不是独有的,最近在把google搜索的结果中所有的站点地址导出,于是想到用python正则表达式提取搜索结果中的站点地址. 这其中涉及几个需要解决的问题: 1.获取搜索的结果文本为了获得更多的地址,我使用了Google的高级搜索功能,每个页面显示100条结果. 获得显示的结果后,可以查看源码,并保持成文本文件就有了搜索的结果文本 2.分析如何提取站点信息首先需要分析获取的页面,查看以怎样的方式可以提取出站点信息. 我使用IE8自带的开发工具(按F12就会弹出来

html-怎样用正则表达式提取HTM中的部分数据

问题描述怎样用正则表达式提取HTM中的部分数据怎样用正则表达式从一个Html 中提取一些想要的数据,正则表达式该写在哪里呢解决方案 /<(.*)>.*</1>/ "<(.*)>.*</1>" 匹配一个 HTML 标记. 解决方案二: 你是用什么语言,想提取什么标签内的内容解决方案三: 问这种问题应该给出示例的html代码片断,以及你希望提取的数据,还有你用的编程语言,才好帮助到你. 你什么都不说,只能给你一个泛泛的解答了:在goo

pdf-Python 提取PDF多级标题

问题描述 Python 提取PDF多级标题请问如何用Python提取PDF文本的多级标题?有合适的库吗?PythonMiner有没有这个功能呢? 解决方案 PDFMiner可以做到,但是前提是pdf中有书签和大纲,否则就要自己判断哪些文字是标题了. 解决方案二: https://blog.scraperwiki.com/2013/07/pdftables-a-python-library-for-getting-tables-out-of-pdf-files/

猜你喜欢

[经典面试题][谷歌]一个大小为n的数组，里面的数都属于范围[0, n-1]，有不确定的重复元素，找到至少一个重复元素

题目一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间. 思路一寻找重复元素,很容易想到建立哈希表来完成,遍历一遍数组 ...

php获取数组第一个数组单元值的方法

本篇文章主要说明的是在php中,如何获取一个数组的第一个数组单元的值的方法.在php的内置函数中,获取数组元素值的函数主要有 reset next current prev end 这几个函数. re ...

Photoshop文字特效教程:特效很棒的冰雪字

微博上都在说东北暴雪咯,大家注意添暖加衣,那么今天分享一个应景的pS教程.教您创建一个超炫的冰霜字体.特效真的很棒哟,过程很详细,童鞋们赶紧来练练手呐 ^_^ 小提示:教程是在CC版本下进行的,操作面 ...

产品设计用户体验模式:完整明确的用户体验策略

文章描述:界面设计规范体现了苹果对于iOS应用在设计与开发质量方面的重视,使第三方开发者们必须努力满足用户的高期望高要求. 界面设计规范体现了苹果对于iOS应用在设计与开发质量方面的重视,使第三方开发 ...

Oracle中监控sysdba角色用户登陆情况

在Oracle 8i版本之前,使用internal用户来执行数据库的启动和关闭以及create database等操作:从8i版本以后,Oracle已经逐渐淘汰了internal用户,采用授与sysd ...

用php实现 gb2312 和 unicode 间的编码转换

编码|转换 gb2312 和 unicode 间的编码转换下面的例子是将 gb2312 转换为 "全"这种形式 php4.3.1以后的iconv函数很好用的,只是需要自己写一个u ...

利用微软网格控件进行编辑输入

Visual Basic中提供了许多标准控件和定制控件,每一个控件都可以提供一组特殊的用户界面和编程能力.充分利用每一个控件的特性和方法,可以使编程工作更加容易.简单. 微软网格控件MSFlexGri ...

ASP.NET 2.0中Gridview控件高级技巧

ASP.NET 2.0中新增加的gridview控件的确十分强大,弥补了在asp.net 1.1中,使用datagrid控件时的不足之处.因为在asp.net 1.1中,在使用 datagrid时,很 ...

Win7系统中的taskmgr.exe是什么进程？

win7系统中的taskmgr.exe是什么进程? 一.taskmgr.exe是什么进程通常情况下taskmgr.exe进程就是任务管理器进程,你打开任务管理器后,taskmgr.exe进程就会 ...

完整的mysql主从配置方法

mysql主从分两个角色 1.主服务器 master 2.从服务器 slave mysql主从复制就是两个服务器之间数据库的同步,也可以理解成对主服务器的一个备份,当主服务器的数据进行了变更,那么 ...

电脑屏幕截图快捷键是哪个？

电脑屏幕截图快捷键是哪个? 键盘电脑屏幕截图快捷键是哪个? 截图快捷键一:使用键盘中的PrintScrSysrq键实现全屏截图 PrintScrSysrq键,其位于键盘的右上方,如上图所示,按下 ...

Win8手动设置允许程序通过防火墙的方法

Win8系统相对于之前的Win7和XP系统来说,在安全系数经过了比较大的提高.Win8系统内置防火墙也很强大.那么小编下面就要教大家怎么手动设置允许程序通过win8防火墙. 操作方法: 1.同时按下键 ...

巧用资源管理器查看Win7QQ好友IP地址

用QQ时间比较长的朋友都知道,以前有一些第三方版本的QQ可以显示好友IP,但现在基本都被"取缔"啦.那么现在有什么软件可以查看好友IP呢?其实根本用不着通过软件,在Win7的资 ...

如何让系统自带截图工具

windows 7的自带截图工具的功能也是很强大的,但是很多人不喜欢系统自带的截图工具.但是看了这篇文章,也许你就会喜欢上系统自带的截图工具了,比较它不用你在运行任何软件. 1 windows 系统截 ...

如何更改Mac文件的默认打开方式？

熟悉Mac电脑的用户都知道,在 OS X 中,Finder 存储的文件总会以指定的某个默认应用程序打开,比如图片类型的文件默认以「预览」打开.但由于PC6小编经常需要使用图片编辑工具 PS打开图片 ...

如何解决电脑风机声音大的问题

最实惠的就是自己修理,材料很简单,只要一小片易拉罐铝皮和一点黄油. 导致的原因可能是显卡风扇由于轴承缺油,轴承孔被磨损--风扇的轴和轴承之间的间隙过大.风扇在转动后作轴向运动,而且扇叶的转动平面 ...

iOS中定时器NSTimer的使用

1.初始化 + (NSTimer *)timerWithTimeInterval:(NSTimeInterval)ti target:(id)aTarget selector:(SEL)aSelect ...

阶乘算法-网上找的c语言的求大数阶乘的答案看不太懂这个算法求大神解释算法

问题描述网上找的c语言的求大数阶乘的答案看不太懂这个算法求大神解释算法 #include int main() { ??? int n; ??? int a[9000]; //确保保存最终运算结 ...

微软云计算中心或落户广东

新快报讯微软(微博)将在华建立多于一个的云计算中心,广东是其中一个微软在考虑的选址地,微软全球资深副总裁.大中国区董事长兼首席执行官梁念坚(微博)日前出席广交会活动期间,向新快报记者透露了前述信息. ...

机器学习theano安装-import theano 时 &amp;#39;size_t&amp;#39; does not name a type

问题描述 import theano 时 'size_t' does not name a type GC_Malloc' is marked 'dllimport' C:Anacondainclud ...

重新想象 Windows 8.1 Store Apps (80) - 控件增强: WebView 之基本应用, POST 数据, 与 JavaScript 交互

原文:重新想象 Windows 8.1 Store Apps (80) - 控件增强: WebView 之基本应用, POST 数据, 与 JavaScript 交互 [源码下载] 重新想象 Wind ...

互联网巨头转战“轻博客”

中介交易 SEO诊断淘宝客云主机技术大厅今年多家网站纷纷暂停了传统的博客业务,与此同时,一种以兴趣为中心,由兴趣引发圈子互动的产品Tumblr(创立于2007年国外轻博客网站)正在悄然流行,被 ...

求正则表达式,抓取下边红色标记内容，并求出&amp;lt;a&amp;gt;&amp;lt;/a&amp;gt;间内容及href内容,如:&amp;quot;/Info/2007-10/XTW20071013184427.htm&amp;quot;和&amp;lt;a&amp;gt;&amp;lt;/a&amp;gt;

问题描述 <ahref="http://www.huochepiao.com/rss/search.asp?chufa=北京&daoda=上海"><img ...

糯米网第二季度净营业收入增至360万美元

中新网8月8日电今日,人人公司公布了截至6月30日2012年第二季度未经审计财报,财报显示,旗下社交化团购网站糯米网第二季度净营业收入增至360万美元,对比去年同期的110万美元和今年一季度的250 ...

websphere7 启动war包 Failed to load MBeanServerBuilder class

问题描述本来是osgi应用,利用eclipse官方提供的方式打成了war包,也做了桥接.在Tomcat下能正常启动,但在websphere7中启动时遇到如下两个问题.请高手给点提示吧~第一个问题:[ ...

张艾嘉郑元畅探访印度贫困儿分享希望幸福(图)

张艾嘉携手郑元畅.贺军翔探访印度贫困儿童张艾嘉.郑元畅.贺军翔与印度贫困儿童合影张艾嘉与身着印度传统服饰的儿童印度小朋友展露笑容新浪娱乐讯日前,张艾嘉(Sylvia)携手郑元畅(小综).贺军 ...

“为为网商标维权”新闻发布会

上海易饰嘉网络科技有限公司(下称"易饰嘉")召开"为为网商标维权"新闻发布会,拟状告美国苹果公司. 为为网是易饰嘉的旗下品牌,是一家类似于1号店的电子商务网站, ...

瑞星称和Windows 7的合作不会受到“微软捆绑杀毒软件”的影响

以下为瑞星回应全文: 一.瑞星注意到有消息称Windows 7将捆绑免费的杀毒软件等消息,但是没有收到更多微软官方发出的信息,因此并不能确定微软是否要捆绑.捆绑什么样的产品.在全球哪些区域市场捆绑,以 ...

高性能WEB开发为什么要减少请求数，如何减少请求数!_相关技巧

http请求头的数据量我们先分析下请求头,看看每次请求都带了那些额外的数据.下面是监控的google的请求头 Host www.google.com.hk User-Agent Mozilla/5. ...

孙志浩携女伴看电影贾静雯回应：那是他的事

孙志浩从另一边出电影院孙志浩和贾静雯2人才正式离婚不到1个月,孙志浩就被直击在深夜时分,和一名女性友人一起到电影院看电影,被发现跟拍后,孙志浩连忙闪避:提到女儿梧桐妹,孙志浩只说现在是归贾静雯管,态 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.022 s.