php 正则表达式提取网页超级链接url的函数_正则表达式

复制代码代码如下:

function match_links($document) {
preg_match_all("'<\s*a\s.*?href\s*=\s*([\"\'])?(?(1)(.*?)\\1|([^\s\>]+))[^>]*>?(.*?)</a>'isx",$document,$links);
while(list($key,$val) = each($links[2])) {
if(!empty($val))
$match['link'][] = $val;
}
while(list($key,$val) = each($links[3])) {
if(!empty($val))
$match['link'][] = $val;
}
while(list($key,$val) = each($links[4])) {
if(!empty($val))
$match['content'][] = $val;
}
while(list($key,$val) = each($links[0])) {
if(!empty($val))
$match['all'][] = $val;
}
return $match;
}

主要是正则的问题，下面给出个asp.net下的，多测试正则
获取页面的链接正则

复制代码代码如下:

public string GetHref(string HtmlCode)
{
string MatchVale = "";
string Reg = @"(h|H)(r|R)(e|E)(f|F) *= *('|"")?((\w|\\|\/|\.|:|-|_)+)('|""| *|>)?";
foreach (Match m in Regex.Matches(HtmlCode, Reg))
{
MatchVale += (m.Value).ToLower().Replace("href=", "").Trim() + "||";
}
return MatchVale;
}

时间： 2024-12-25 21:01:46

php 正则表达式提取网页超级链接url的函数_正则表达式的相关文章

php 正则表达式提取网页超级链接url的函数

复制代码代码如下: function match_links($document) { preg_match_all("'<\s*a\s.*?href\s*=\s*([\"\'])?(?(1)(.*?)\\1|([^\s\>]+))[^>]*>?(.*?)</a>'isx",$document,$links); while(list($key,$val) = each($links[2])) { if(!empty($val)) $mat

正则表达式在网页处理中的应用四则_正则表达式

正则表达式(Regular Expression)为字符串模式匹配提供了一种高效.方便的方法.几乎所有高级语言都提供了对正则表达式的支持,或者提供了现成的代码库供调用.本文以ASP环境中常见的处理任务为例,介绍正则表达式的应用技巧. 一.检验密码和邮件地址的格式我们的第一个实例示范正则表达式的一项基本功能:抽象地描述任意复杂的字符串.它的意思就是,正则表达式给予程序员一种形式化的字符串描述方法,只需很少的代码即可描述出应用遇到的任意字符串模式.例如,对于不从事技术工作的人来说,密码格式的要求可

基于Python正则表达式提取搜索结果中的站点地址_正则表达式

正则表达式对于Python来说并不是独有的,最近在把google搜索的结果中所有的站点地址导出,于是想到用python正则表达式提取搜索结果中的站点地址. 这其中涉及几个需要解决的问题: 1.获取搜索的结果文本为了获得更多的地址,我使用了Google的高级搜索功能,每个页面显示100条结果. 获得显示的结果后,可以查看源码,并保持成文本文件就有了搜索的结果文本 2.分析如何提取站点信息首先需要分析获取的页面,查看以怎样的方式可以提取出站点信息. 我使用IE8自带的开发工具(按F12就会弹出来

asp下正则实现URL自动链接的一个函数_正则表达式

复制代码代码如下: Function AutoLinkURLs(strString) Dim match, matches, offset, url, email, link, relnkAutoLinkURL relnkAutoLinkURL = "<a href=""[[%URL%]]"">[[%URLText%]]</a>" If Not IsObject(regExp) The

JS正则表达式提取字符串中所有汉字的脚本_正则表达式

在网上发现有人用vbscript正则表达式实现了这个功能,但代码很厂,偶改成js的了,很短的一段代码: [Ctrl+A 全选注:如需引入外部Js需刷新才能执行] 这里的关键是汉字escape后的编码范围是\u4e00-\u9fa5,知道这个问题就好解决了.

PHP用正则表达式提取网页链接地址

如下面代码,用正则表达式提取其中的链接地址以下是引用片段:<div class="pic" id="s3"> <a title=list href="http://www.alixixi.com/down/" target="_blank">阿里西西源码下载频道</a> <a href="http://js.alixixi.com/" target="

python使用正则表达式提取网页URL的方法

本文实例讲述了python使用正则表达式提取网页URL的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 import re import urllib url="http://www.3lian.net" s=urllib.urlopen(url).read() ss=s.replace(" ","") urls=re.findall(r"<a.*?href=.*?</a&g

ASP超级链接和HTML函数正则表达式修正版_正则表达式

过滤超级链接复制代码代码如下: Function RegRemoveHref(HTMLstr) Set ra = New RegExp ra.IgnoreCase = True ra.Global = True ra.Pattern = "<A[^>]+>(.+?)<\/A>" RegRemoveHref = ra.replace(HTMLstr,"$1") END Function 过滤所有HTML代码复制代码代码如下: Fu

ASP超级链接和HTML函数正则表达式修正版

过滤超级链接复制代码代码如下: Function RegRemoveHref(HTMLstr) Set ra = New RegExp ra.IgnoreCase = True ra.Global = True ra.Pattern = "<A[^>]+>(.+?)<\/A>" RegRemoveHref = ra.replace(HTMLstr,"$1") END Function 过滤所有HTML代码复制代码代码如下: Fu

猜你喜欢

使用SQL-DMO备份数据库并进行校验

备份|数据|数据库本文谈论如何用SQL-DMO创建数据库备份和校验的ASP应用. ========================================================== ...

存储虚拟化多样化的选择

冲容量限制找HDS 随着业务的增长和数据量的增加,存储设备容量的增长是必然的.如今看来,突破PB级存储容量已不是难事.但从目前的趋势看,存储容量的增长速度超过了性能的提升,这对于用户来说未必是一件好 ...

Asp.Net Mvc: Model Binding to Simple Types, Complex Types,……

Asp.Net Mvc: Model Binding to Simple Types, Complex Types, Collections, Dictionaries, Etc 环境: Window ...

program files文件夹是什么意思

Program Files文件夹是什么意思? Program Files文件夹是应用软件文件夹,比如你需要安装软件,他的默认安装路径就是Program Files文件夹了.如果对此有怀疑的话可以去安装 ...

在windows窗体上滚动条控件的起始位置是怎么自定义的？

问题描述在windows窗体上滚动条控件的起始位置是怎么自定义的? 在windows窗体上滚动条控件的起始位置是怎么自定义的?怎么修改窗口上滚动条的布局,在上面插入快捷定位的按钮呢? 解决方案 Wi ...

笔记本驱动摄像头-惠普笔记本摄像头驱动为什么不能用？

问题描述惠普笔记本摄像头驱动为什么不能用? 刚买一台惠普笔记本Pavilion 15-e420TX,系统是Win7的,发现摄像头的驱动不能用. 哪位有这个驱动麻烦分享一下.先谢了!

c++ 类的定义和使用

在 c++ 中类的定义为 class 类名 { };切记,类的定义完成后要加上分号,这是很多初学者容易犯的错误. 类的成员及函数分为 public private protect 三类,大家 ...

c#-关于base的问题关于base的问题关于base的问题关于base的问题

问题描述关于base的问题关于base的问题关于base的问题关于base的问题 namespace ReWriteMethodX{ class People { public virtual st ...

java-关于linux环境变量的问题

问题描述关于linux环境变量的问题这环境变量太奇怪了, 用普通用户修改 /etc/profile 添加jdk环境变量关闭命令窗口重新打开, 输入java -version,能正常输出, 如果 ...

高性能后台服务器架构设计

如何设计高性能的大型网站系统?在移动互联网时代,客户端应用开发本身,并不是体验的决胜之处,真正对团队挑战的地方,还在于后端,无论是承压能力,还是安全性等方面,如果这些地方过不了关,整个应用的基础是不扎 ...

struct-中缀表达式转换成后缀表达式，求大神帮忙找下错误，谢谢

问题描述中缀表达式转换成后缀表达式,求大神帮忙找下错误,谢谢 #include #include typedef struct huozhui{ char c; struct huozhui nex ...

js弹出窗口，可判断是否弹出代码

//普通窗口 function openWindow(dialogName, pageUrl, width, height, resizable) { try { screenWidth = ...

电信诈骗发案率跃居北京刑事犯罪首位

图为民警在北京市公安局110报警服务台反电信诈骗咨询席值守. 新华社发谭志勇摄新华网北京11月13日电(记者李舒.卢国强) 北京警方严厉打击电信诈骗,最大限度挽回群众损失.据悉,今年以来警方已 ...

对象-jsp页面登录错误，doPost代码问题

问题描述 jsp页面登录错误,doPost代码问题这是ManageSevlet.java部分代码: package wyf.zrk; import javax.servlet.http.*; imp ...

massXpert mass spectrometry package 3.2.0发布质谱分析

massXpert mass spectrometry package是一个直线聚合物的质谱分析环境软件包.它继承了GNU polyxmass的创新,允许新的化学聚合物在XpertDef模块的详细定义 ...

IIS 发布之后水晶报表找不到打印机了

问题描述 RT,我在本地调试的时候,打印机可以打印,但是我发布之后,在公司其他客户端访问,提示打印机没有安装,求解?????PS:打印机是网络打印机,指定的一个ip上面的打印机.我在想是不是权限不够呢 ...

保证数据一致性的常见做法

我们在做业务时,很多时候都用到了事务.最近业务涉及也蛮多的,这里总结下. 单库用事务就可以搞定,但是事务不是万能的.就算隔离级别是可重复读,并发情况下也会出现更新 ...

足彩基础知识入门(3)足彩赔率的本质

在本博客的2篇文章足彩基础知识入门(1)概述与介绍和为什么选择玩足球彩票以及玩彩票的心态?详细介绍了选择足彩,以及对足彩的基本看法.今天就介绍足彩的基本玩法,是一个总结性文章,作为足彩入门的必备资料之 ...

Dreamweaver基础技巧全面接触二

二. 页面布局阶段的技巧 Dreamweaver不仅仅是一个良好的页面制作工具,同时他还可以进行精确的页面排版和布局,这一部分我们介绍几个页面布局方面的技巧. 1.打开辅助表格.搞过设计的朋友都特别希 ...

邀请好友加入，链接怎么？

问题描述就是现在要实现的就是,只有通过特定链接跳转过来的好友才能加入这个链接我要怎么办呢?加密还是?怎么加密啊?因为要根据不同的小组生成不同的链接?怎么自动生成这些链接呢?谢谢了解决方案简单点的 ...

js动态更换背景图

问题描述 top.style.backgroundImage+="url(<%=basePath%>wdecp/images/shop/shop_photo/"+msg ...

ca6140杠杆课程设计-CA6140 左摆动杠杆铣2mm槽夹具设计

问题描述 CA6140 左摆动杠杆铣2mm槽夹具设计课程设计,需要装配图,零件图,和设计说明书,广告勿扰,看清题目回答,不然不会采纳.

联想股价下跌杨元庆大手笔增持公司股票提振股价

陷入是非的联想集团掌门人计划以真金白银进力挺公司.7月6日,美银美林发布报告,下调联想集团于2017财年及2018财年的盈利预测各2%.次日,联想集团董事长兼CEO杨元庆拿出约8060万元,大手笔增持 ...

百度开放云席卷亚太

在北京.成都.武汉三地掀起百度开放云开发热潮之后,7月27日,由百度公司主办.infoq和segmentfault社区联办.WWF(世界自然基金会)作为环保公益合作伙伴的"百度开放云编程马拉 ...

华人研究团队发现新粒子，这其中会有下一个诺奖得主吗？

雷锋网(公众号:雷锋网)按:作为杨振宁的学生,如果华人物理学家张首晟也获得诺贝尔物理学奖,那将是诺奖历史上的一件盛事,也将是中国的一件盛事. 图:张首晟据7月21日出版的<科学>杂志报导 ...

通过提高冷却效率削减数据中心能源成本的五大战略

伴随着电价和IT能耗的持续上升,IT相关的能源成本正受到越来越严格的审查.在一处精心设计的数据中心,冷却耗电成本大约占到总的耗电量的37%.换言之,其实这在许多情况下,意味着通过提高冷却效率来降低IT ...

中国移动最高层变更内幕：接班人猜想结束

6月1日消息,针对中国移动高层变动,知情人士进一步透露了内幕,改任董事长和党组书记的王建宙仍为一把手,接任总经理的李跃为二把手,但李跃终将接掌中国移动掌门人成定局,纠葛了一年的中国移动高层接班人猜想基 ...

“净网”清理涉枪爆信息42万余条

法制网北京1月16日讯记者卢杰李恩树记者今天从公安部了解到,针对网上贩卖枪爆物品的动向,2012年,各地http://www.aliyun.com/zixun/aggregation/30713 ...

千亿美元的在线广告蛋糕竟有30%是“变质”的

近日<华尔街日报>报道称,全美在线http://www.aliyun.com/zixun/aggregation/11937.html">广告行业今年的总价值将高达500百 ...

如何诊断你的网站是否健康

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅一个网站为什么排名高,不一定能通过 ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.022 s.