python提取页面内url列表的方法

　　本文实例讲述了python提取页面内url列表的方法。分享给大家供大家参考。具体实现方法如下：

　　?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

from bs4 import BeautifulSoup
import time,re,urllib2
t=time.time()
websiteurls={}
def scanpage(url):
websiteurl=url
t=time.time()
n=0
html=urllib2.urlopen(websiteurl).read()
soup=BeautifulSoup(html)
pageurls=[]
Upageurls={}
pageurls=soup.find_all("a",href=True)
for links in pageurls:
if websiteurl in links.get("href") and links.get("href") not in Upageurls and links.get("href") not in websiteurls:
Upageurls[links.get("href")]=0
for links in Upageurls.keys():
try:
urllib2.urlopen(links).getcode()
except:
print "connect failed"
else:
t2=time.time()
Upageurls[links]=urllib2.urlopen(links).getcode()
print n,
print links,
print Upageurls[links]
t1=time.time()
print t1-t2
n+=1
print ("total is "+repr(n)+" links")
print time.time()-t
scanpage("http://news.163.com/")

　　希望本文所述对大家的Python程序设计有所帮助。

时间： 2025-01-20 13:54:27

python提取页面内url列表的方法的相关文章

python统计文本文件内单词数量的方法

本文实例讲述了python统计文本文件内单词数量的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 # count lines, sentences, and words of a text file # set all the counters to zero lines, bla

Python提取网页中的超链接地址方法

最近正在学习Python,打算用作爬虫开发.既然要做爬虫,首先就要抓取网页,并且从网页中提取出超链接地址. 下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接,代码如下: 代码如下复制代码 import urllib2 import re url = 'http://www.111cn.net/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.c

做SEO对站内URL优化的重要性和一般方法

众所周知,SEO界被很多人挂在嘴边的一句圣经是,"内容为王,外链为皇",这句话从SEO诞生之日起就开始被业界奉为做SEO的准则,也是不管我们是做郑州SEO还是做其他关键词也好要出发的基础点.是的,虽然做SEO面对的对象是搜索引擎,是机器,但是最终通过搜索引擎的传递需要表达的,还是用户本身,所以内容是重要的,SEO终极服务目的还是要为人服务,让那些有定向性的人,搜索这个关键词,能够找到他想要的内容,这也符合搜索引擎的发展方向和服务目的;再说外链,就是把你的网站和搜索引擎当成是一个人的社会

jQuery实现页面内锚点平滑跳转特效的方法总结

通过jQuery实现页面内锚点平滑跳转的方法很多,可以通过插件hovertreescroll实现,也可以简单的通过animate方法实现,下面介绍这2种比较简单的方法. 平时我们做导航滚动到内容都是通过锚点来做,刷的一下就直接跳到内容了,没有一丝的滚动效果,而且 url 链接最后会有"小尾巴",就像#keleyi,今天我就介绍一款 jquery 做的滚动的特效,既可以设置滚动速度,又可以在 url 链接上没有"小尾巴". ? 1 2 3 4 5 6 7 8 9

python获取指定目录下所有文件名列表的方法

本文实例讲述了python获取指定目录下所有文件名列表的方法.分享给大家供大家参考.具体实现方法如下: 这里python代码实现获取文件名列表的功能,可以指定文件中包含的字符,方便提取特定类型的文件名列表: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 #

jQuery实现页面内锚点平滑跳转特效的方法总结_jquery

平时我们做导航滚动到内容都是通过锚点来做,刷的一下就直接跳到内容了,没有一丝的滚动效果,而且 url 链接最后会有"小尾巴",就像#keleyi,今天我就介绍一款 jquery 做的滚动的特效,既可以设置滚动速度,又可以在 url 链接上没有"小尾巴". <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>jQuery实

Python提取网页中超链接的方法_python

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接代码如下: import urllib2 import re url = 'http://www.sunbloger.com/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.close() links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/

JS获取中文拼音首字母并通过拼音首字母快速查找页面内对应中文内容的方法【附demo源码】_javascript技巧

本文实例讲述了JS获取中文拼音首字母并通过拼音首字母快速查找页面内对应中文内容的方法.分享给大家供大家参考,具体如下: 实现效果: 图一: 图二: 此例中输入的中文字符串"万万保重",有三个字是多音字,所以alert对话框中显示的是多种读音的组合: 如何实现? 如何实现通过拼音首字母快速查找页面内的中文内容呢? 过程原理是这样的:例如要对一些人名进行快速查找,当页面加载完成后,对所有人名建立一个索引,生成拼音首字母与姓名的对应关系:然后监听键盘事件,当用户按下键盘时,根据键值得到按下的

Python教程 dir()内置函数作用及使用方法

dir()内置函数作用 python内置方法有很多,无论是初学还是经通python的程序员都不能全部记住所有方法,这时候dir()函数就非常有用了.使用dir()函数可以查看对像内所有属于及方法,在python中任何东西都是对像,一种数据类型,一个模块等,都有自己的属性和方法,除了常用方法外,其它的你不需要全部记住它,交给dir()函数就好了. dir()函数使用方法 dir()函数操作方法很简单,只需要把你想要查询和对像添写到( )括号中就可以使用了. 例如你想查看列表都有哪些方法,你可以在(

猜你喜欢

thinkphp 前台html调用函数格式化输出

仅仅是输出变量并不能满足模板输出的需要,内置模板引擎支持对模板变量使用调节器和格式化功能,其实也就是提供函数支持,并支持多个函数同时使用.用于模板标签的函数可以是PHP内置函数或者是用户自定义函数,和 ...

javaScript教程:以实例方式学习call函数

javaScript 中的 call() 是一个奇妙的方法,但也是一个让人迷惑的方法,先看一下官方的解释: call 方法应用于:Function 对象要求:版本 5.5 调用一个对象的一个方法, ...

浅谈原创文章完成以后的使用技巧

原创文章相信很多站长朋友们都已经写过不少,笔者本人也是一样,在进入这一行之后,可以明显感觉到自己在写作方面水平的提高. 很简单地说,你以往所写的文章多数为抒发你自己个人情感的文章,一般以叙事性的文章. ...

在Windows2000下玩老程序

大家都知道Windows 2000下有些系统自带的游戏是不能运行的,因为Windows 2000采用了全新的NT内核,所以以前在Windows 98/Me下可以正常运行的程序在Windows 2000 ...

关键字优化难易度与收支平衡比分析

如何搜索引擎优化?一个耐人琢磨的话题.之所以耐人琢磨是因为存在了太多的不确定因素.有些网站适合全力以赴的做优化,甚至不惜出资聘用SEO工程师也值得.但还有一些网站,本身并不适合做SEO,可企业偏偏去聘 ...

HTML 5 2D 游戏开发：设置舞台

游戏开发的许多方面都和玩游戏没有关系.显示说明.暂停游戏.级别之间的过渡和滚动游戏分数,这些都是游戏开发人员必须在游戏本身以外实现的一些特性. 当游戏的灵感来临时,这些灵感中通常不包括显示高分数或 ...

PowerPoint 2010:强化视频表现力

在用PowerPoint制作演示文档的时候,插入一些多媒体内容(如图片.视频等)已经成为必不可少的步骤,因为这些图片.视频等元素能极大丰富演示文档的内容. 那么在即将到来的PowerPoint 201 ...

Win8激活：可刷BIOS激活Win8

对于在许多零售商店购买Windows笔记本和桌面电脑的用户而言,应该对贴在机器背面.底部或是说明书上的标签很熟悉了,这个标签上会印有 Windows的产品密钥.这种标签的存在实际上是有点小问题的,比如 ...

零基础如何系统地学习前端开发？

网站开发开发大致分为前端和后端,前端主要负责实现视觉和交互效果,以及与服务器通信,完成业务逻辑.其核心价值在于对用户体验的追求.可以按如下思路学习系统学习: 基础知识: 1.HTML + CSS ...

利用PS滤镜制作放射文字教程

用滤镜制作放射字是最快的,同时也有多种滤镜组合可以选择.其中用风滤镜及极坐标是最漂亮的.这里介绍的方法是用径向模糊滤镜,在模糊之前最好把文字边缘部分用涂抹工具或画笔等加强一下,这样模糊后的放射效果更明 ...

node.js使用npm 安装插件时提示install Error: ENOENT报错的解决方法

在使用npm install安装扩展插件时,系统提示"npm install Error: ENOENT, stat 'C:Users<用户名>AppDataRoamingn ...

ios-NSDateFormatter错误返回一年前日期

问题描述 NSDateFormatter错误返回一年前日期代码: NSString *ds = @"2013-02-25"; NSDateFormatter* formatter ...

HTTP请求响应过程以及与HTTPS区别

HTTP协议笔记,干货 HTTP协议 HTTP协议主要应用是在服务器和客户端之间,客户端接受超文本. 服务器按照一定规则,发送到客户端(一般是浏览器)的传送通信协议.与之类似的还有文件传送协议(fil ...

oracle 移动窗口基线

AWR 基线使用AWR 基线进行比较性能分析 • AWR 基线包含了"目标或参考"时段的一组AWR 快照 • 基线对性能优化很关键,可用于: – 指导预警阈值的设置 – 监视性能 ...

无互动的客服已死！未来什么样的客服模式才有价值？

变革家,专注创业项目分析,帮股权投资者把好第一关!客户服务无论从独立的一个细分领域,还是到一个公司的重要部门,它都在发生着深刻的变化.原来大家习惯的电话客服和呼叫中心,都在走向重塑的道路上,下面这15 ...

初学,登陆代码

问题描述 Subkkk(ByValsendAsObject,ByValeAsEventArgs)DimnamesAsStringDimpasswordAsStringDimSqlAsStringDim ...

php加一句如果在数据库里没某条记录，则显示提示消息。判断语句应该怎么改？求大神抱大腿！

问题描述 php加一句如果在数据库里没某条记录,则显示提示消息.判断语句应该怎么改?求大神抱大腿! function xuesheng(){ $c=M('case')->field('id')- ...

B2c杂思：非扁平化路径

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅对于大品种量.且消费冲动与具体商品 ...

Java在DOS编辑与Eclipse编辑的结果怎么会有差别呢？

问题描述 Java在DOS编辑与Eclipse编辑的结果怎么会有差别呢? 一个简单的程序: class Person{ String name; //声明姓名属性 int age; //声明年龄属性 ...

winform版shift后门制作，求帮助。

问题描述我是参考http://blog.csdn.net/yakson/article/details/9698275的,想做一个winform版后门,并且写了其他的一些功能.stringpath= ...

智能家庭本周锋闻：Homekit开始崭露头角

苹果和Google都不在CES,但它们的影响力却无处不在. 每届CES看完后,大家都会有这样的感受.在以前,是遍布展厅的苹果周边配件和Google Android设备,而在今年,则变成智能家居, ...

Linux系统下java程序如何将Swf的每一帧都转换成图片？

问题描述 Linux系统下java程序如何将Swf的每一帧都转换成图片? Linux系统下java程序如何将Swf的每一帧都转换成图片? 解决方案如何将pdf图片转换成jpg

java的struct是什么吗？不是框架struts而是结构体

问题描述 java的struct是什么吗?不是框架struts而是结构体 java的struct是什么吗?不是框架struts而是结构体解决方案首先说struct 可以代替class 是错误的.s ...

联想Y485的自带win8系统重新做成win7

问题描述联想Y485的自带win8系统重新做成win7 我用PE中的硬盘工具把原来的分区都删掉了重新做系统,结果还是做不上怎么办??急!!!! 解决方案把分区删除干吗?晕! 解决方案二: 可以参考 ...

使用Dockerfile编译自己的docker镜像

演示一个镜像包含apache 1.新建Dockerfile Java代码 vi Dockerfile 2.填入如下内容 Java代码 # Version 0.0.1 From cen ...

sqlite-用where条件查询SQLite数据库

问题描述用where条件查询SQLite数据库在数据库中用string作为where条件查询数据库,程序就会关闭.如果换成数字作为条件,就没问题.帮我看一下代码: public ArrayList ...

前端开发-Web前端二级菜单移植

问题描述 Web前端二级菜单移植 web前端新手,好多都还不懂,还请多多指教.需要的效果如图,在鼠标悬停在按钮位置,出现二级菜单开发-Web前端二级菜单移植-移动web 二级菜单联动"& ...

求助版友

问题描述小弟年后即将毕业,写的论文题目为<基于sip的即时通信系统研究>,现在不知道怎么写,还请问板上大神指点一二,我暂定的论文内容有:第一章:概述:第二章:即时通信软件概况:第三章:s ...

影响历史的四个黑客故事

诸多黑客对黑客精神下过定义,总结起来大概是: 采用一切可能的手段达到目的. 有趣的事,这个定义里没有提到互联网.根据这个说法,黑客就远远不用囿于网络世界,甚至这个职业应该和刺客一样古老.果真如此的话, ...

新闻-webView加载百度首页的bug

问题描述 webView加载百度首页的bug 百度首页加载以后,点击百度推荐的新闻,会有问题,进入两秒后会弹出一个找不到网页的界面.按返回键还返回不了. 求解答解决方案什么webView?是什么环 ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.022 s.