正则表达式,提取网页中的链接地址_正则表达式

<td class=cate width="45%" style="word-break:break-all">
      <a class=M href="http://jmfengcai.cn.alibaba.com/athena/companydetail/jmfengcai.html" onMouseDown="return aliclick(this,'?alishop=companylistcompanyname');" target="_blank" class=M>江门市蓬江区凤彩工艺厂</a>
        <br>

代码如上.我请问如何用正则表达式,把"http://jmfengcai.cn.alibaba.com/athena/companydetail/jmfengcai.html"提取出来?

复制代码 代码如下:

/(http:\/\/\[^" ']+)/gm

/href *= *['"]*(\S+)["']* */gm

根据不同需要选择。 

时间: 2024-11-24 08:02:45

正则表达式,提取网页中的链接地址_正则表达式的相关文章

正则表达式,提取网页中的链接地址

<td class=cate width="45%" style="word-break:break-all">       <a class=M href="http://jmfengcai.cn.alibaba.com/athena/companydetail/jmfengcai.html" onMouseDown="return aliclick(this,'?alishop=companylistcompany

URL 筛选小工具 提取网页中的链接地址_vbs

使用方法:将下面的代码保存为jb51.vbs然后拖动你保存在本地的htm页面,拖放在这个vbs即可 复制代码 代码如下: '备注:URL筛选小工具 '防止出现错误 On Error Resume Next 'vbs代码开始---------------------------------------------- Dim p,s,re If Wscript.Arguments.Count=0 Then Msgbox "请把网页拖到本程序的图标上!",,"提示" Ws

基于Python正则表达式提取搜索结果中的站点地址_正则表达式

正则表达式对于Python来说并不是独有的,最近在把google搜索的结果中所有的站点地址导出,于是想到用python正则表达式提取搜索结果中的站点地址. 这其中涉及几个需要解决的问题: 1.获取搜索的结果文本 为了获得更多的地址,我使用了Google的高级搜索功能,每个页面显示100条结果. 获得显示的结果后,可以查看源码,并保持成文本文件就有了搜索的结果文本 2.分析如何提取站点信息 首先需要分析获取的页面,查看以怎样的方式可以提取出站点信息. 我使用IE8自带的开发工具(按F12就会弹出来

Python提取网页中的超链接地址方法

最近正在学习Python,打算用作爬虫开发.既然要做爬虫,首先就要抓取网页,并且从网页中提取出超链接地址. 下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接,代码如下:  代码如下 复制代码 import urllib2 import re url = 'http://www.111cn.net/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.c

如何提取网页中所有链接

见过"网际快车"的"使用网际快车下载全部链接"这个功能吗?想实现它,我们可以这样做: IE有几个有用的接口,我们可以用它来提取网页所有链接. 一.基本原理 首先是用IHTMLDocument2的get_links,来获取IHTMLElementCollection接口,再通过IHTMLElementCollection来获取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我们想要的,通过循环获取,我们就可以得到网

c# 正则表达式对网页进行有效内容抽取_正则表达式

搜索引擎中一个比较重要的环节就是从网页中抽取出有效内容.简单来说,就是吧HTML文本中的HTML标记去掉,留下我们用IE等浏览器打开HTML文档看到的部分(我们这里不考虑图片). 将HTML文本中的标记分为:注释,script ,style,以及其他标记分别去掉: 1.去注释,正则为: output = Regex.Replace(input, @"<!--[^-]*-->", string.Empty, RegexOptions.IgnoreCase); 2.去scrip

提取网页中的链接并生成xml

using System; using System.Xml; using System.Text; using System.Net; using System.IO; using System.Collections; using System.Text.RegularExpressions; public class App { public static void Main() { string strCode; ArrayList alLinks; Console.Write("请输入

正则获取图片地址 链接地址_正则表达式

复制代码 代码如下: reg = /<[img|href][^>]*src\s*=\s*('|")?([^'">]*)\1([^>])*>/ig 正则获取图片地址 一.问题: 采集的过程中遇到一个问题:从数据库里读出来的图片没有正常显示,分析后发现是数据库里的图片以网站根目录为相对路径方式存储,图片地址如:/uploads/allimg/090403/012F31N9-1.jpg,原来做的读取图片是以http://开关的URL绝对图片获取,所以采集中出现以

node.js正则表达式获取网页中所有链接的代码实例_node.js

实现代码 复制代码 代码如下: var http = require('http'); //定义函数var getAHref = function(htmlstr){    var reg = /<a.+?href=('|")?([^'"]+)('|")?(?:\s+|>)/gim;    var arr = [];    while(tem=reg.exec(htmlstr)){        arr.push(tem[2]);    }    return a