所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。
类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。
在Python中,我们使用urllib2这个组件来抓取网页。
urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。
它以urlopen函数的形式提供了一个非常简单的接口。
最简单的urllib2的应用代码只需要四行。
我们新建一个文件urllib2_test01.py来感受一下urllib2的作用:
import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html
按下F5可以看到运行的结果:
以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索python
, 网络爬虫
, 组件
, response
, 网页抓取
, urllib2
, 一个
, python抓取百度
, python抓取数据
, python抓取淘宝
, urllib的使用
, urllib2模块
python抓取网页
,以便于您获取更多的相关知识。