正则表达式,提取网页中的链接地址

<td class=cate width="45%" style="word-break:break-all">

      <a class=M href="http://jmfengcai.cn.alibaba.com/athena/companydetail/jmfengcai.html" onMouseDown="return aliclick(this,'?alishop=companylistcompanyname');" target="_blank" class=M>江门市蓬江区凤彩工艺厂</a>

        <br>

代码如上.我请问如何用正则表达式,把"http://jmfengcai.cn.alibaba.com/athena/companydetail/jmfengcai.html"提取出来?

复制代码 代码如下:

/(http:\/\/\[^" ']+)/gm

/href *= *['"]*(\S+)["']* */gm

根据不同需要选择。

时间: 2024-12-22 07:30:13

正则表达式,提取网页中的链接地址的相关文章

正则表达式,提取网页中的链接地址_正则表达式

<td class=cate width="45%" style="word-break:break-all">       <a class=M href="http://jmfengcai.cn.alibaba.com/athena/companydetail/jmfengcai.html" onMouseDown="return aliclick(this,'?alishop=companylistcompany

URL 筛选小工具 提取网页中的链接地址_vbs

使用方法:将下面的代码保存为jb51.vbs然后拖动你保存在本地的htm页面,拖放在这个vbs即可 复制代码 代码如下: '备注:URL筛选小工具 '防止出现错误 On Error Resume Next 'vbs代码开始---------------------------------------------- Dim p,s,re If Wscript.Arguments.Count=0 Then Msgbox "请把网页拖到本程序的图标上!",,"提示" Ws

Python提取网页中的超链接地址方法

最近正在学习Python,打算用作爬虫开发.既然要做爬虫,首先就要抓取网页,并且从网页中提取出超链接地址. 下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接,代码如下:  代码如下 复制代码 import urllib2 import re url = 'http://www.111cn.net/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.c

如何提取网页中所有链接

见过"网际快车"的"使用网际快车下载全部链接"这个功能吗?想实现它,我们可以这样做: IE有几个有用的接口,我们可以用它来提取网页所有链接. 一.基本原理 首先是用IHTMLDocument2的get_links,来获取IHTMLElementCollection接口,再通过IHTMLElementCollection来获取IHTMLAnchorElement,而IHTMLAnchorElement接口的get_href就是我们想要的,通过循环获取,我们就可以得到网

提取网页中的链接并生成xml

using System; using System.Xml; using System.Text; using System.Net; using System.IO; using System.Collections; using System.Text.RegularExpressions; public class App { public static void Main() { string strCode; ArrayList alLinks; Console.Write("请输入

node.js正则表达式获取网页中所有链接的代码实例_node.js

实现代码 复制代码 代码如下: var http = require('http'); //定义函数var getAHref = function(htmlstr){    var reg = /<a.+?href=('|")?([^'"]+)('|")?(?:\s+|>)/gim;    var arr = [];    while(tem=reg.exec(htmlstr)){        arr.push(tem[2]);    }    return a

C#正则表达式通过HTML提取网页中的图片src

原文:C#正则表达式通过HTML提取网页中的图片src 目前在做HoverTreeCMS项目中有处理图片的部分,参考了一下网上案例,自己写了一个获取内容中的图片地址的方法. 可以先看看效果:http://tool.hovertree.com/a/zz/img/  一般来说一个 HTML 文档有很多标签,比如"<html>"."<body>"."<table>"等,想把文档中的 img 标签提取出来并不是一件容易

在C#中如何获取网页的验证码链接地址

问题描述 在C#中如何获取网页的验证码链接地址 在C#中如何获取网页的验证码链接地址,比如我想通过在C#窗体中点击获取验证码按钮,得到网页的验证码. 解决方案 你是指验证码图片还是验证码的字符串? 如果是验证码图片,那么一般验证码的图片都是有个链接的,你先获取到这个链接然后将这个链接拼接到当前地址后面(或者当前地址的上一级). 然后通过WebClient的DownloadFile方法下载验证码图片... 如果你想要获取验证码字符串就必须自己想办法识别了...简单的验证码可以通过调用第三方识别引擎

ASP.NET实现抓取网页中的链接

asp.net|链接|网页 输入一个地址,就可以把那个网页中的链接提取出来,下面这段代码可以轻松实现,主要的是用到了正则表达式.      GetUrl.ASPx代码如下:      <%@ Page Language="<a href="http://dev.21tx.com/language/vb/" target="_blank">VB</a>" CodeBehind="GetUrl.aspx.vb&