Python提取网页中超链接的方法_python

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接

代码如下:

import urllib2
import re

url = 'http://www.sunbloger.com/'

req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()

links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a

总结

以上就是这篇文章的全部内容,希望本文的内容对大家的学习或者工作能有所帮助,如果有疑问大家可以留言交流。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索python
提取超链接
网页中超链接、python提取网页数据、python 提取网页正文、python 提取网页url、python 提取网页内容,以便于您获取更多的相关知识。

时间: 2024-09-28 07:42:28

Python提取网页中超链接的方法_python的相关文章

python使用BeautifulSoup分页网页中超链接的方法_python

本文实例讲述了python使用BeautifulSoup分页网页中超链接的方法.分享给大家供大家参考.具体如下: python通过BeautifulSoup分页网页中的超级链接,这段python代码输出www.jb51.net主页上所有包含了jb51的url链接 from BeautifulSoup import BeautifulSoup import urllib2 import re url = urllib2.urlopen("http://www.jb51.net") con

Python提取网页中的超链接地址方法

最近正在学习Python,打算用作爬虫开发.既然要做爬虫,首先就要抓取网页,并且从网页中提取出超链接地址. 下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接,代码如下:  代码如下 复制代码 import urllib2 import re url = 'http://www.111cn.net/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.c

Python去掉字符串中空格的方法_python

我们经常在处理字符串时遇到有很多空格的问题,一个一个的去手动删除不是我们程序员应该做的事情,今天这篇技巧的文章就来给大家讲一下,如何用Python去除字符串中的空格.我们先创建一个左右都有N个空格的字符串变量s,看代码: 复制代码 代码如下: >>> s = "       ">>> 去除字符串空格,在Python里面有它的内置方法,不需要我们自己去造轮子了.lstrip:删除左边的空格这个字符串方法,会删除字符串s开始位置前的空格. 复制代码 代码

python 如何提取网页所有超链接?

问题描述 python 如何提取网页所有超链接? import urllib2 import re website = urllib2.urlopen(http://www.bxwx.org/b/5/5383/) html = website.read() links = re.findall('"((http|ftp)s?://.*?)"', html) print links raw_input() 我代码这样,不知道为什么一运行就退出了. 解决方案 参考:http://bbs.c

JavaScript返回网页中超链接数量的方法_javascript技巧

本文实例讲述了JavaScript返回网页中超链接数量的方法.分享给大家供大家参考.具体如下: 下面的JS代码通过document.links获取网页中的所有超级链接,从而获得超链接的数量 <!DOCTYPE html> <html> <body> <img src ="planets.gif" width="145" height="126" alt="Planets" usemap

C#正则表达式通过HTML提取网页中的图片src

原文:C#正则表达式通过HTML提取网页中的图片src 目前在做HoverTreeCMS项目中有处理图片的部分,参考了一下网上案例,自己写了一个获取内容中的图片地址的方法. 可以先看看效果:http://tool.hovertree.com/a/zz/img/  一般来说一个 HTML 文档有很多标签,比如"<html>"."<body>"."<table>"等,想把文档中的 img 标签提取出来并不是一件容易

用户界面讨论:网页中超链接的下划线

关于超链接中的下划线这个及细节的问题,想必大家都有过讨论和思考,最重要的原则即:让使用者清楚的区分超链接文本和其他文本形式,并潜意识知道可以点击.但对于是否可以潜意识知道可以点击,还是有争议的,不同的人,不同的环境会有不同的见解. 不妨分几个场景讨论一下: 1. 导航区域,潜意识我会去点击.   即便有下划线也是个"古老形式"的摆设,所以一般没有下划线:好的设计不仅满足点击,还满足视觉的层级关系. 2. 整页全是链接,下划线成了可有可无的表现. 象新浪.搜狐首页都是可以点击的,所以下划

在Python的列表中利用remove()方法删除元素的教程

  这篇文章主要介绍了在Python的列表中利用remove()方法删除元素的教程,是Python入门中的基础知识,注意其和pop()方法的区别,需要的朋友可以参考下 remove()方法从列表中删除第一个obj. 语法 以下是remove()方法的语法: ? 1 list.remove(obj) 参数 obj -- 这是可以从列表中移除该对象 返回值 此方法不返回任何值,但从列表中删除给定的对象 例子 下面的例子显示了remove()方法的使用 ? 1 2 3 4 5 6 7 8 #!/usr

实例-如何用python把网页中js全部转换为html?

问题描述 如何用python把网页中js全部转换为html? 有现成实例吗..谢 了 解决方案 用fiddler调试下,看js执行如何获取的网页,然后程序中模仿. 解决方案二: js怎么转html,好像,没有这么一个转换关系.