php 正则表达式提取网页超级链接url的函数

复制代码代码如下:

function match_links($document) {

preg_match_all("'<\s*a\s.*?href\s*=\s*([\"\'])?(?(1)(.*?)\\1|([^\s\>]+))[^>]*>?(.*?)</a>'isx",$document,$links);

while(list($key,$val) = each($links[2])) {

if(!empty($val))

$match['link'][] = $val;

}

while(list($key,$val) = each($links[3])) {

if(!empty($val))

$match['link'][] = $val;

}

while(list($key,$val) = each($links[4])) {

if(!empty($val))

$match['content'][] = $val;

}

while(list($key,$val) = each($links[0])) {

if(!empty($val))

$match['all'][] = $val;

}

return $match;

}

主要是正则的问题，下面给出个asp.net下的，多测试正则

获取页面的链接正则

复制代码代码如下:

public string GetHref(string HtmlCode)

{

string MatchVale = "";

string Reg = @"(h|H)(r|R)(e|E)(f|F) *= *('|"")?((\w|\\|\/|\.|:|-|_)+)('|""| *|>)?";

foreach (Match m in Regex.Matches(HtmlCode, Reg))

{

MatchVale += (m.Value).ToLower().Replace("href=", "").Trim() + "||";

}

return MatchVale;

}

时间： 2024-11-30 09:16:41

php 正则表达式提取网页超级链接url的函数的相关文章

php 正则表达式提取网页超级链接url的函数_正则表达式

复制代码代码如下: function match_links($document) { preg_match_all("'<\s*a\s.*?href\s*=\s*([\"\'])?(?(1)(.*?)\\1|([^\s\>]+))[^>]*>?(.*?)</a>'isx",$document,$links); while(list($key,$val) = each($links[2])) { if(!empty($val)) $mat

PHP用正则表达式提取网页链接地址

如下面代码,用正则表达式提取其中的链接地址以下是引用片段:<div class="pic" id="s3"> <a title=list href="http://www.alixixi.com/down/" target="_blank">阿里西西源码下载频道</a> <a href="http://js.alixixi.com/" target="

python使用正则表达式提取网页URL的方法

本文实例讲述了python使用正则表达式提取网页URL的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 import re import urllib url="http://www.3lian.net" s=urllib.urlopen(url).read() ss=s.replace(" ","") urls=re.findall(r"<a.*?href=.*?</a&g

ASP超级链接和HTML函数正则表达式修正版_正则表达式

过滤超级链接复制代码代码如下: Function RegRemoveHref(HTMLstr) Set ra = New RegExp ra.IgnoreCase = True ra.Global = True ra.Pattern = "<A[^>]+>(.+?)<\/A>" RegRemoveHref = ra.replace(HTMLstr,"$1") END Function 过滤所有HTML代码复制代码代码如下: Fu

ASP超级链接和HTML函数正则表达式修正版

过滤超级链接复制代码代码如下: Function RegRemoveHref(HTMLstr) Set ra = New RegExp ra.IgnoreCase = True ra.Global = True ra.Pattern = "<A[^>]+>(.+?)<\/A>" RegRemoveHref = ra.replace(HTMLstr,"$1") END Function 过滤所有HTML代码复制代码代码如下: Fu

正则表达式,提取网页中的链接地址

<td class=cate width="45%" style="word-break:break-all"> <a class=M href="http://jmfengcai.cn.alibaba.com/athena/companydetail/jmfengcai.html" onMouseDown="return aliclick(this,'?alishop=companylistcompany

正则表达式,提取网页中的链接地址_正则表达式

<td class=cate width="45%" style="word-break:break-all"> <a class=M href="http://jmfengcai.cn.alibaba.com/athena/companydetail/jmfengcai.html" onMouseDown="return aliclick(this,'?alishop=companylistcompany

网页超级链接

直以来都有这样一个困惑,那就是打开页面间的链接时是在原窗口转换还在新窗口打开呢?如果是在原窗口里转换页面的话,那我还想使用原页面的信息呢?但是在新窗口打开的话,到时候可能是一屏幕的窗口(现在的浏览器都提供标签式浏览--我认为这是浏览器至今为止最好的改进,但也会造成成堆的标签排在那而不知道到底哪个才是自己想要的),很容易就让人迷失在窗口里.也许该说按特定的环境使用特定的方式,可是这个特定的环境又是哪些呢? 那有没有更好的办法呢?有什么办法即可以让我看到所有想看的新闻,而又不用面对满屏幕的窗口或是堆

如何提取网页中所有链接

见过"网际快车"的"使用网际快车下载全部链接"这个功能吗?想实现它,我们可以这样做: IE有几个有用的接口,我们可以用它来提取网页所有链接. 一.基本原理首先是用IHTMLDocument2的get_links,来获取IHTMLElementCollection接口,再通过IHTMLElementCollection来获取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我们想要的,通过循环获取,我们就可以得到网

猜你喜欢

电脑机箱的优点和缺点

电源下置是Intel标准ATX机箱架构的变种,与后者相比电脑机箱内的布局没有太大变化,只是将电源仓位由原先的后上角移动到了后下角.电源下置的ATX机箱出现至今已有很长一段时间.尤其是近两年,电源下 ...

DHTML对象模型（About the DHTML Object Model）(一)

dhtml|model|object|对象|dhtml [注:最近在学习asp.net,觉得javascript的很多知识在asp.net中仍很有用,又觉得javascript的实质是利用脚本对DHT ...

AutoCAD中取代CHT进行文字替换

如果我们需要在一个文件中大量地用同一文字取代另一文字时,通常会想到用替换命令.在以前的AutoCAD版本中,必须要加载CHT功能,并使用CHT相关命令来完成替换工作.但是在AUTOCAD R14可直接 ...

Maya龙的制作

这是一条龙的模型,如图. 1.下面开始制做骨骼ANIMATIONSKELETONJOINT,从龙头开始向下画. 2.如图. 3.图中有以下几点要注意:当骨骼蒙皮时最好不要带龙角.龙牙.龙鳍,因为在设置 ...

Linux基本配置和管理 8 程序管理与SELinux初探

一什么是进程 1 在Linux系统当中,触发任何一个事件时,系统都会将它定义成为一个进程,并且给予这个进程一个ID,称为PID,同时依据触发这个进程的用户与相关属性关系,给予这个PID一组有效的权 ...

使用IBM Rational Team Concert进行实时协作和开发（二）

Order Management 应用软件到目前为止,这个项目的所有基础设置都已经安装好.项目区域,团队区域, 用户,WorkItem 类别 , WorkItems 以及迭代都已经创建,并且源代码也 ...

Python使用minidom读写xml的方法

本文实例讲述了Python使用minidom读写xml的方法.分享给大家供大家参考.具体分析如下: 一 python提供的xml支持 2种工业标准的xml解析方法-SAX和DOM.SAX(simp ...

Win7任务管理器被系统管理员停用的解决办法

任务管理器中记录了有关计算机性能的信息,我们只需按键盘上的ctrl+alt+del组合键就可以打开任务管理器,查看系统正在运行的程序和进程.但如果在用别人电脑的时候,可能任务管理器已被系统管理员停 ...

如何禁止WinXp系统中的恶意广告弹窗网站

1.打开以下目录:C:WindowsSystem32driversetc; 2.找到并右键hosts文件,选择以记事本方式打开; 3.hosts文件打开之后是这样的窗口,里面是这些英文是介绍hos ...

这些开源项目，你都知道吗？（持续更新中...）[原创]

原文这些开源项目,你都知道吗?(持续更新中...)[原创] Json.NET http://json.codeplex.com/ Json.Net是一个读写Json效率比较高的.Net框架.Jso ...

论文导读：面向卷积神经网络的卷积核冗余消除策略

更多深度文章,请关注:https://yq.aliyun.com/cloud 研究背景近几年来,卷积神经网络(Convolutional Neutral Network, CNN)在计算机视觉.自然 ...

揭秘vivo双十一终极战报，里面的隐藏信息你都看懂了吗？

双十一完美落下帷幕,根据天猫官方给出的数据,11.11全天天猫交易额达到1682亿,相较去年是大幅增长.很明显,消费升级已然成为各个行业创收的良机.尤其是在手机行业中,只要产品足够吸引人,大家买单时分 ...

string-java String编译后变为Object是为什么

问题描述 java String编译后变为Object是为什么 java中的String赋值编译后变为Object对象,是为什么?是因为它是final类型的吗?望大神相告,谢谢!源代码:public ...

设置jspx的鼠标属性怎么弄找不到相关的css

问题描述设置jspx的鼠标属性怎么弄找不到相关的css 找不到相关的内容在哪个css中,解决不了鼠标小手变指针的设"置,style="cursor:default";可 ...

【求助】如何将c#中 tabControl 下 tabPage的 chart 图表导入到excel表格中？

问题描述想把Winform界面的数据导入到Excel表格中,但是不知道如何对chart图表处理.还请各位大虾多多指导! 解决方案解决方案二:等待中!!解决方案三:该回复于2012-03-19 13 ...

数据中心进化三部曲

信息时代的到来,改变了我们的工作和生活方式,让我们从未像现在这样如此依赖于各种信息,信息技术也得到了蓬勃发展.现如今,数据中心已经成为了信息技术高速发展的最佳实验田,几乎所有新的信息技术都最终要在数据 ...

Android中软解码和硬解码的优先级

我们先来看一下Android系统中解码器的命名,软解码器通常是以OMX.google开头的.硬解码器通常是以OMX.[hardware_vendor]开头的,比如TI的解码器是以OMX.TI开头的.当 ...

环信的登录状态会自动掉线么，假设网络一直存在，且应用永不退出，那么应用是否会一直在线？

问题描述解决方案调用login成功之后,只要不调用logout都是登录状态.登录状态和一直在线是有区别的,你可以调用rest接口判断一下解决方案二:OK,那么我理想的情况是终端能一直在线,即可以随 ...

专访Peter ku：金融数据背后的商业价值

本文讲的是专访Peter ku:金融数据背后的商业价值,一个大规模生产.分享.应用大数据的时代正在开启,作为数据密集型行业,手机银行.电子支付.社交网络.云计算都让金融企业数据资源的"储量& ...

php-关于资金提现和判断的问题！PHP

问题描述关于资金提现和判断的问题!PHP 网站上有充值提现功能,我想实现给特定用户提现的时候提现金额实现限制和判断. 例如:如果是用户ID为001的用户提现的话,那么他最高可提现金额等于账户总金额 ...

通过Google挖掘细分市场的一个案例

我是亦仁, 前阿里运营,现持续创业者. 本文篇幅较长,无阅读门槛,比较适合想兼职赚点零花钱的程序员.想找场景学习编程的小伙伴以及没有创业点子的朋友.全文4000字,完整读完大约需要10分钟. 理论上来 ...

How To Install Linux, Nginx, MySQL, PHP (LEMP) stack On CentOS 7

Introduction A LEMP software stack is a group of open source software that is typically installed to ...

opencv怎样实现图像投影

问题描述 opencv怎样实现图像投影就是知道x,y转化后的坐标x'y'要怎么将图像上的点进行转换,是要用矩阵吗,这方面的知识欠缺,求问各位大神! 解决方案 http://blog.csdn.net ...

O2O“最后一公里”难题的五种解法

O2O最难解决的就是"最后一公里"问题,也就是物流配送或者是针对用户在线下的送货上门服务.虽然O2O已经成为了创业者的口头禅,但真正能将最根本的难题--"最后一公里&qu ...

Forest Man一个人的力量

印度东北部,有一个名叫Majuli的岛,一百年前,气候变化导致土质变坏,此地渐成荒地,野生动物几近消失... 故事从1979年开始,16岁的印度男孩Jadav Payeng看到洪水卷来成千上万的蛇,全 ...

百度有啊前端框架分析（浏览器内置事件）

事件是JavaScript中非常重要的一个内容,在百度有啊的前端框架中主要对事件分成了浏览器内置事件和自定义事件两部分. BBEvent下主要对浏览器内置事件进行了标准化. target :事件 ...

jQuery 捕获回车事件并提交表单例子

最简单的办法是代码如下复制代码 onkeydown="if(event.keyCode==13) {document.getElementById('button1′).click() ...

如何判断人脸识别是否准确？SeetaFace助你一臂之力｜AI科技评论

对不同的人进行区分是很多智能系统的必备能力.所谓的人脸识别技术也是为了实现此目的开发出来的,通过对人脸的光学成像来感知人.识别人.经过几十年的研发积累,特别是近年来深度学习技术的涌现,人脸识别取得了长 ...

笔记本电脑怎么保养笔记本电脑保养方法汇总

受高温天气等环境因素影响,夏季是电脑故障的高发期,为您分享一些必要的保养常识. 一.防热夏季温度高,人要防晒防热,电脑也是如此. 1.使用电脑时尽量避免堵塞电脑散热孔,改正不良使用习惯, ...

手机市场这么大，总能碰上几个专利流氓

苹果和三星两年前的"世纪之战"令人记忆犹新,10.5亿美元的赔偿将专利的"利"发挥得淋漓尽致.那时候的国产手机还在社会主义的呵护下茁壮成长,两位大佬在海外 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.