python提取页面内url列表的方法

   本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下:

  ?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
for links in pageurls:
if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
Upageurls[links.get("href")]=0
for links in Upageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print "connect failed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
print n,
print links,
print Upageurls[links]
t1=time.time()
print t1-t2
n+=1
print ("total is "+repr(n)+" links")
print time.time()-t
scanpage("http://news.163.com/")

  希望本文所述对大家的Python程序设计有所帮助。

时间: 2025-01-20 13:54:27

python提取页面内url列表的方法的相关文章

python统计文本文件内单词数量的方法

  本文实例讲述了python统计文本文件内单词数量的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 # count lines, sentences, and words of a text file # set all the counters to zero lines, bla

Python提取网页中的超链接地址方法

最近正在学习Python,打算用作爬虫开发.既然要做爬虫,首先就要抓取网页,并且从网页中提取出超链接地址. 下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接,代码如下:  代码如下 复制代码 import urllib2 import re url = 'http://www.111cn.net/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.c

做SEO对站内URL优化的重要性和一般方法

众所周知,SEO界被很多人挂在嘴边的一句圣经是,"内容为王,外链为皇",这句话从SEO诞生之日起就开始被业界奉为做SEO的准则,也是不管我们是做郑州SEO还是做其他关键词也好要出发的基础点.是的,虽然做SEO面对的对象是搜索引擎,是机器,但是最终通过搜索引擎的传递需要表达的,还是用户本身,所以内容是重要的,SEO终极服务目的还是要为人服务,让那些有定向性的人,搜索这个关键词,能够找到他想要的内容,这也符合搜索引擎的发展方向和服务目的;再说外链,就是把你的网站和搜索引擎当成是一个人的社会

jQuery实现页面内锚点平滑跳转特效的方法总结

  通过jQuery实现页面内锚点平滑跳转的方法很多,可以通过插件hovertreescroll实现,也可以简单的通过animate方法实现,下面介绍这2种比较简单的方法. 平时我们做导航滚动到内容都是通过锚点来做,刷的一下就直接跳到内容了,没有一丝的滚动效果,而且 url 链接最后会有"小尾巴",就像#keleyi,今天我就介绍一款 jquery 做的滚动的特效,既可以设置滚动速度,又可以在 url 链接上没有"小尾巴". ? 1 2 3 4 5 6 7 8 9

python获取指定目录下所有文件名列表的方法

  本文实例讲述了python获取指定目录下所有文件名列表的方法.分享给大家供大家参考.具体实现方法如下: 这里python代码实现获取文件名列表的功能,可以指定文件中包含的字符,方便提取特定类型的文件名列表: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 #

jQuery实现页面内锚点平滑跳转特效的方法总结_jquery

平时我们做导航滚动到内容都是通过锚点来做,刷的一下就直接跳到内容了,没有一丝的滚动效果,而且 url 链接最后会有"小尾巴",就像#keleyi,今天我就介绍一款 jquery 做的滚动的特效,既可以设置滚动速度,又可以在 url 链接上没有"小尾巴". <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>jQuery实

Python提取网页中超链接的方法_python

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接 代码如下: import urllib2 import re url = 'http://www.sunbloger.com/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.close() links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/

JS获取中文拼音首字母并通过拼音首字母快速查找页面内对应中文内容的方法【附demo源码】_javascript技巧

本文实例讲述了JS获取中文拼音首字母并通过拼音首字母快速查找页面内对应中文内容的方法.分享给大家供大家参考,具体如下: 实现效果: 图一: 图二: 此例中输入的中文字符串"万万保重",有三个字是多音字,所以alert对话框中显示的是多种读音的组合: 如何实现? 如何实现通过拼音首字母快速查找页面内的中文内容呢? 过程原理是这样的:例如要对一些人名进行快速查找,当页面加载完成后,对所有人名建立一个索引,生成拼音首字母与姓名的对应关系:然后监听键盘事件,当用户按下键盘时,根据键值得到按下的

Python教程 dir()内置函数作用及使用方法

dir()内置函数作用 python内置方法有很多,无论是初学还是经通python的程序员都不能全部记住所有方法,这时候dir()函数就非常有用了.使用dir()函数可以查看对像内所有属于及方法,在python中任何东西都是对像,一种数据类型,一个模块等,都有自己的属性和方法,除了常用方法外,其它的你不需要全部记住它,交给dir()函数就好了. dir()函数使用方法 dir()函数操作方法很简单,只需要把你想要查询和对像添写到( )括号中就可以使用了. 例如你想查看列表都有哪些方法,你可以在(