python使用BeautifulSoup分析网页信息的方法_python

本文实例讲述了python使用BeautifulSoup分析网页信息的方法。分享给大家供大家参考。具体如下：

这段python代码查找网页上的所有链接，分析所有的span标签，并查找class包含titletext的span的内容

复制代码代码如下:

#import the library used to query a website
import urllib2

#specify the url you want to query
url = "http://www.python.org"

#Query the website and return the html to the variable 'page'
page = urllib2.urlopen(url)

#import the Beautiful soup functions to parse the data returned from the website
from BeautifulSoup import BeautifulSoup

#Parse the html in the 'page' variable, and store it in Beautiful Soup format
soup = BeautifulSoup(page)

#to print the soup.head is the head tag and soup.head.title is the title tag
print soup.head
print soup.head.title

#to print the length of the page, use the len function
print len(page)

#create a new variable to store the data you want to find.
tags = soup.findAll('a')

#to print all the links
print tags

#to get all titles and print the contents of each title
titles = soup.findAll('span', attrs = { 'class' : 'titletext' })
for title in allTitles:
print title.contents

希望本文所述对大家的Python程序设计有所帮助。

时间： 2024-11-25 21:33:33

python使用BeautifulSoup分析网页信息的方法_python的相关文章

python简单程序读取串口信息的方法_python

本文实例讲述了python简单程序读取串口信息的方法.分享给大家供大家参考.具体分析如下: 这段代码需要调用serial模块,通过while循环不断读取串口数据 import time import serial ser = serial.Serial( #下面这些参数根据情况修改 port='COM1', baudrate=9600, parity=serial.PARITY_ODD, stopbits=serial.STOPBITS_TWO, bytesize=serial.SEVENBIT

Python读取mp3中ID3信息的方法_python

本文实例讲述了Python读取mp3中ID3信息的方法.分享给大家供大家参考.具体分析如下: pyid3不好用,常常有不认识的. mutagen不错,不过默认带的easyid3不会读取注释,需要手工hack一下 Python代码如下: from mutagen.mp3 import MP3 import mutagen.id3 from mutagen.easyid3 import EasyID3 EasyID3.valid_keys["comment"]="COMM::'X

python使用正则表达式分析网页中的图片并进行替换的方法

这篇文章主要介绍了python使用正则表达式分析网页中的图片并进行替换的方法,涉及Python使用正则表达式的技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例讲述了python使用正则表达式分析网页中的图片并进行替换的方法.分享给大家供大家参考.具体分析如下: 这段代码分析网页中的所有图片表单<img>,分析后为其前后添加相应的修饰标签,并添加到图片的超级链接. 代码如下: result = value.replace("[ page ]","

python使用BeautifulSoup分页网页中超链接的方法_python

本文实例讲述了python使用BeautifulSoup分页网页中超链接的方法.分享给大家供大家参考.具体如下: python通过BeautifulSoup分页网页中的超级链接,这段python代码输出www.jb51.net主页上所有包含了jb51的url链接 from BeautifulSoup import BeautifulSoup import urllib2 import re url = urllib2.urlopen("http://www.jb51.net") con

python获取各操作系统硬件信息的方法

本文实例讲述了python获取各操作系统硬件信息的方法.分享给大家供大家参考.具体如下: 1. windows 使用WMI: (WMI官网地址:http://pypi.python.org/pypi/WMI 或点击此处本站下载.) ? 1 2 3 4 5 import wmi w=wmi.WMI() cpus=w.Win32_Processor() for u in cpus: print 'cpu id:',u.ProcessorId 运行结果如下: ? 1 2 cpu id: BFEB

python使用正则表达式提取网页URL的方法

本文实例讲述了python使用正则表达式提取网页URL的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 import re import urllib url="http://www.3lian.net" s=urllib.urlopen(url).read() ss=s.replace(" ","") urls=re.findall(r"<a.*?href=.*?</a&g

python实现根据用户输入从电影网站获取影片信息的方法_python

本文实例讲述了python实现根据用户输入从电影网站获取影片信息的方法.分享给大家供大家参考.具体如下: 这段python代码主要演示了用户终端输入,正则表达式,网页抓取等 #!/usr/bin/env python27 #Importing the modules from BeautifulSoup import BeautifulSoup import sys import urllib2 import re import json #Ask for movie title title =

python通过pil模块获得图片exif信息的方法_python

本文实例讲述了python通过pil模块获得图片exif信息的方法.分享给大家供大家参考.具体分析如下: python的pil模块功能超级强大,不但可以用来处理图片也可以用来获取图片的exif数据 from PIL import Image #code from http://www.jb51.net img = Image.open('img.jpg') exif_data = img._getexif() 希望本文所述对大家的Python程序设计有所帮助. 以上是小编为您精心准备的的内容,在

python通过exifread模块获得图片exif信息的方法_python

本文实例讲述了python通过exifread模块获得图片exif信息的方法.分享给大家供大家参考.具体分析如下: python可通过exifread模块获得图片exif信息 exifread模块的下载地址:https://pypi.python.org/pypi/ExifRead 也可以通过pip进行安装:pip install exifread import exifread # Open image file for reading (binary mode) f = open(path_

猜你喜欢

PS通道打造另类色调效果

最终效果图 1.打开原图,图像--模式--Lab颜色,并复制一层. 2.执行图像--计算,如下图设置: 3.打开通道面扳,我们可以发现经过刚才的计算,生成了Alphal通道. 4.CTRL+A全选 ...

按以下步骤

1.打开开始菜单2.选择程序中的Microsoft .NET FrameWork3.选择Documention4.选择Index选项卡5.输入"DataFormatString proper ...

用户交换机存在的问题及改进意见

用户交换机是国家通信网的一个组成部分,但由于各种原因用户交换机有时不能很好地发挥其有效功能,最突出的问题之一,就是用户交换机分机用户传呼数字寻呼机时,寻呼机上显示的数字是用户交换机出中继号码.因出中继 ...

判断远程图片是否存在的ASP代码

判断远程图片是否存在[ASP代码] function CheckURL(byval A_strUrl)set XMLHTTP = Server.CreateObject("Microsoft ...

RPM的介绍和应用

RPM 是 Red Hat Package Manager 的缩写,本意是Red Hat 软件包管理,顾名思义是Red Hat 贡献出来的软件包管理:在Fedora .Redhat.Mandriva. ...

接触C#的服务器端正则表达式相关验证

初次接触C#的服务器端正则表达式相关验证后续将会在这个基础上将这个C#的服务器端正则表达式相关内容集结在这里入门示例如下 //验证 string strFileName = "S_1 ...

简述Linux文件系统的目录结构

Linux文件系统结的结构是树形结构,其入口从/开始,了解Linux文件系统的结构,对于我们需要掌握的基础知识点之一. 1.什么是文件系统: 请参见:<Linux 文件系统概述> 2.文件 ...

Word 2007技巧:轻松删除首页页码！

在Word文档中插入页码是很容易的事情,不过在实际办公应用中情况多变,我们需要有针对性的设置来满足实际需要.例如:我们制作的文档首页(第一页)为封面,那我们自然不希望首页上有页码了,文档编号实际上从第 ...

javascript 图片裁剪技巧

学php gd库看到有图片裁剪正好整一个嗯其实挺简单的 php版,代码如下: <!DOCTYPE html> <html xmlns="http://www.w3. ...

如何让PPT的幻灯片变成SWF动画

1.点击"开始",在"程序"找到"PowerPointtoFlash"并点击,在主界面上点击"添加"按钮,再单击&q ...

《程序员的修炼——从优秀到卓越》一一1.8 管理中要有信任

1.8 管理中要有信任程序员的修炼--从优秀到卓越 Marco Dorantes在2005年的一篇博文中提到了另外一篇极好的文章,名为"Why Big Software Projects ...

winhttp 亚马逊云盘-使用winhttp向亚马逊云盘上传文件时，报12030错误

问题描述使用winhttp向亚马逊云盘上传文件时,报12030错误我用winhttp协议做上传文件时,上传文件到云盘,上传中途在WinHttpWriteData 处出错,报12030,有谁知道,有 ...

LockWindowUpdate系列

LockWindowUpdate系列1:LockWindowUpdate的行为? 对LockWindowUpdate可怜的误解. 这是关于LockWindowUpdate系列的第一篇.LockWi ...

Lucene5学习之SpellCheck拼写纠错

最近有点累,让这篇又姗姗来迟了,各位不好意思,让你们久等了.趁着周末一个人没什么事,继续Lucene5系列的脚步,今天主题是Suggest模块下另一个功能:拼写纠错.什么叫拼写纠错?大家还是看图 ...

请问C#如何创建访问集合元素的表达式？是用linq动态创建的。

问题描述如何创建访问集合元素的表达式?是用linq动态创建的.比如Expression.Constant(3);可以创建一个常量3,用Expression.ArrayAccess可以访问数组元素.但 ...

webservice的问题

问题描述本人新手,现要做个虚拟银行的身份验证和付款功能发布成webservice,身份验证做好了,付款怎么做啊,我要实现登录后才付款.只做成一个接口

Windows Vista的nLite_Vista

作为Windows爱好者的你一定知道nLite,对于Vista系统也有一个vLite,它可以有效地给Vista光盘减肥并创建自己的个性化CD,相信国内的操作系统打包组肯定期待已久了!OK,来试试看吧! ...

通过探测邮件服务器进行Email地址有效性检验

Email地址有效性的检验是一个经常遇到的问题啦!一般的检验方法是对Email地址字符串进行简单的格式检验,如是否含有@.等有效字符等.这种方法只能保证该地址从格式上看似有效,并不能保证地址可达.最近 ...

HDU1231最大连续子序列

最大连续子序列 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Su ...

在国外最受欢迎的五大社交网站

在国外,最受欢迎的五大社交网站非Facebook.Twitter.Pinterest.LinkedIn和Google++莫属.如果拿这五家社交网站的用户来横向比较的话,会发现有很多不同.从用户数和访问 ...

【CS论坛】维护网络安全的四块基石

本文讲的是 [CS论坛]维护网络安全的四块基石,最近被入侵的大企业有个长长的名单:塔吉特.家得宝.史泰博(Staples).迈克尔斯(Michaels,美国工艺品零售商).凯马特(Kmart,美国超市 ...

使用HTTP/2服务端推送技术加速Node.js应用

四月份,我们宣布了对 HTTP/2 服务端推送技术的支持,我们是通过 HTTP 的 Link 头部来实现这项支持的.我的同事 John 曾经通过一个例子演示了在 PHP 里支持服务端推送功能是多么的简 ...

postgresql-急求涉及时区问题的SQL求助

问题描述急求涉及时区问题的SQL求助要求在postgreSQL上可执行,但是如果这个比较复杂,给出一般的可实现以下功能的SQL code也可以在2013年10月1日10:00(时区:西8区)到2 ...

从买到卖：运营商转身云服务

本文摘要与国内那些喜欢拿"云计算"热炒知名度的行业企业相比,电信运营商在2011年的进展可谓脚踏实地.更重要的是,在积累了相当程度的"对内服务"经验后,运营商 ...

Android 显示和隐藏软键盘的方法(手动)_Android

在Android开发中,经常会有一个需求,做完某项操作后,隐藏键盘,也即让Android中的软键盘不显示.今天,和大家分享如何利用代码来实现对Android的软件盘的隐藏.显示的操作. 1.方法一(如 ...

PHP设计模式注册表模式(多个类的注册)_php技巧

以前我也写过一个注册表类,不过那一个不能进行多个类的注册,下面用数组对类进行了存储. 复制代码代码如下: <?php //基础类 class webSite {//一个非常简单的基础类 pri ...

asp.net c# ZIP文件压缩与解压

asp教程.net c# zip文件压缩与解压 using system; using system.collections.generic; using system.text; using sys ...

android 多点触摸图片缩放的具体实现方法_Android

布局: 复制代码代码如下: <?xml version="1.0" encoding="utf-8"?><RelativeLayout xm ...

Mysql Limit 分页查询优化详解_Mysql

select * from table LIMIT 5,10; #返回第6-15行数据 select * from table LIMIT 5; #返回前5行 select * from table ...

商城和网付通支付接口对接问题

问题描述我正在用Java做一个商城对接银联的"网付通"支付接口的活!以前没做过这种类似活,请问我的这个支付对接程序是放在商城的项目里还是另建一个工程把它作为商城和网付通的中间层好 ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.023 s.