用Python编写网络爬虫（一）：抓取网页的含义和URL基本构成

一、网络爬虫的定义

网络爬虫，即Web Spider，是一个很形象的名字。

把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页的。

从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，

然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

这样看来，网络爬虫就是一个爬行程序，一个抓取网页的程序。

网络爬虫的基本操作是抓取网页。

那么如何才能随心所欲地获得自己想要的页面？

我们先从URL开始。

二、浏览网页的过程

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。

比如说你在浏览器的地址栏中输入 www.baidu.com 这个地址。

打开网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。

HTML是一种标记语言，用标签标记内容并加以解析和区分。

浏览器的功能是将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

三、URI的概念和举例

简单的来讲，URL就是在浏览器端输入的 www.baidu.com 这个字符串。

在理解URL之前，首先要理解URI的概念。

什么是URI？

Web上每种可用的资源，如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier， URI)进行定位。

URI通常由三部分组成：

①访问资源的命名机制；

②存放资源的主机名；

③资源自身的名称，由路径表示。

如下面的URI：

http://www.why.com.cn/myhtml/html1223/

我们可以这样解释它：

①这是一个可以通过HTTP协议访问的资源，

②位于主机 www.webmonkey.com.cn上，

③通过路径“/html/html40”访问。

时间： 2025-01-20 14:55:27

用Python编写网络爬虫（一）：抓取网页的含义和URL基本构成的相关文章

java-利用crawler4j做网络爬虫如何抓取特定标题和发表时间

问题描述利用crawler4j做网络爬虫如何抓取特定标题和发表时间利用crawler4j做网络爬虫如何抓取特定标题和发表时间,地区等,还有什么值得推荐的爬虫工具(java)方向解决方案利用crawler4j做网络爬虫,你能抓取到数据的话,然后分析数据就行.特定的标题和发表时间,应该有特定的标识的,检查此标识然后取得想要的数据. 解决方案二: 如果服务器支持rss,那么可以直接从中过滤,不支持rss,就只能先抓取标题和时间字段,然后再下载文章.这个不同的网站是不同的. 虽然理论上可以通过L

用Python编写网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简单的urllib2的应用代码只需要四行. 我们新建一个文件urllib2_

用Python编写网络爬虫（五）：urllib2的使用细节与抓站技巧

前面说到了urllib2的简单入门,下面整理了一部分urllib2的使用细节. 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy. 如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用代理. 新建test14来实现一个简单的代理Demo: import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : 'http

用Python编写网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件. 项目内容: 用Python写的百度贴吧的网络爬虫. 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行. 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地. 原理解释: 首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页之后url发生了一点变化,变成了: http://tieba.baidu.com/p/2296712428?see_lz=1&pn=

用Python编写网络爬虫（八）：糗事百科的网络爬虫（v0.2）源码及解析

项目内容: 用Python写的糗事百科的网络爬虫. 使用方法: 新建一个Bug.py文件,然后将代码复制到里面后,双击运行. 程序功能: 在命令提示行中浏览糗事百科. 原理解释: 首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1 可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为以后的编写做准备. 然后,右击查看页面源码: 观察发现,每一个段子都用center标记,其中class必为content,title是发帖时间,我

用Python编写网络爬虫（六）：一个简单的百度贴吧的小爬虫

# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:why # 日期:2013-05-14 # 语言:Python 2.7 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数. # 功能:下载对应页码内的所有页面并存储为html文件. #--------------------------------------- import string,

用Python编写网络爬虫（四）：Opener与Handler的介绍和实例应用

在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl() 1.geturl(): 这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向.获取的URL或许跟请求URL不同. 以人人中的一个超级链接为例, 我们建一个urllib2_test10.py来比较一下原始URL和重定向的链接: fr

用Python编写网络爬虫（三）：异常的处理和HTTP状态码的分类

先来说一说HTTP的异常处理问题. 当urlopen不能够处理一个response时,产生urlError. 不过通常的Python APIs异常如ValueError,TypeError等也会同时产生. HTTPError是urlError的子类,通常在特定HTTP URLs中产生. 1.URLError 通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生. 这种情况下,异常同样会带有"reason"属性,它是一个tuple(可以理解为不可变的

网络爬虫-wget爬取网页失败问题

问题描述 wget爬取网页失败问题用wget工具爬取指定url的页面,我的url是www.baidu.com时,就没问题,要是这个url就爬不下来https://www.baidu.com/s?wd=1446544426%40qq.com&rsv_spt=1&rsv_iqid=0x93249e020001a818&issp=1&f=3&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=98050039_dg&rsv_en

猜你喜欢

ASP.NET高性能分页

最近给分页快搞死,记得之前曾经发过修改DW ASP分页的方法,后来又写过手工打造的ASP分页,现在进入.NET当然要配合存储过程打造纯手工高性能分页了. 为什么会叫做高性能,为什么要手工打造,不使用. ...

一个JS的日期格式化算法示例

本文为大家介绍下一个JS的日期格式化算法,具体实现如下,感兴趣的朋友可以参考下,希望对大家有所帮助复制代码代码如下: function dateFormat(date, format) { v ...

Photoshop给绿树边人物调出甜美的橙绿色

图片主色为黄绿色.调色的时候需要逐步把黄绿色转为橙红色,同时把图片暗部及青色部分转为淡绿色.后期把暗部稍微调亮,再整体调淡即可. 原图 <点小图查看大图> 最终效果 1.打开素材图片,创建 ...

驱动人生全面推出Windows10在线检测升级功能

微软终于确认了Windows10的准确发布时间--7月29日.驱动人生紧跟步伐,全新大作.驱动人生全面推出Windows 10在线检测升级功能.各个硬件驱动包括显卡.声卡.主板.USB等都可以直接 ...

U盘安装WinXP和Win7双系统的步骤

1.下载并安装有U大侠U盘启动制作工具,点击桌面图标; 2.插入U盘之后点击一键制作USB启动盘按钮,程序会提示是否继续,确认所选U盘无重要数据后开始制作: 3.弹出对话框,点击确定(注意操作前备份 ...

如何保存整个网页到本地

当我们想给网页截图但是网页太长超出屏幕的时候,完全没有必要购买那些坑爹的网页快照软件,因为Mac系统就给我们备着呢.很简单很快捷. 打开一个你想保存的网页,然后点选文件-打印,会弹出一个配置框,如 ...

mysql 忽略主键冲突、避免重复插入的几种方式

mysql 忽略主键冲突.避免重复插入的几种方式方案一:使用 ignore 关键字方案二:使用 replace into 方案三:ON DUPLICATE KEY UPDATE 方案一:使用 i ...

js 取消超链接的方法小结_javascript技巧

单个链接取消链接并触发js事件复制代码代码如下: <a href="javascript:void(0);" onclick="alert('ok')" ...

linux安装jdk.tomcat,mysql 的一些记录

一.系统安装 1. 新建虚拟机,选择 linux.2. 新建硬盘,10g 默认分区 3. 选择简体中文,英文键盘. export LANG=zh_CN.GBK export LC_CTYP ...

软件-Android打开活动程序直接关闭了

问题描述 Android打开活动程序直接关闭了这个活动是同学写的.每次当我用Intent跳到那个活动中时软件就停止运行了开始以为我写错了.后来直接把那个活动设为主活动.软件就开也开不起来了.但是不 ...

Selenium 测试疑难问题

1.如何查找iframe里面的元素一般情况下,selenium 多是结合 Xpath 获取元素属性,但当页面包括iframe 元素 ,并且 iframe 的src 是另一个page.html,这时如 ...

BootStrap实用代码片段之一_javascript技巧

如题,持续总结自己在使用BootStrap中遇到的问题,并记录解决方法,希望能帮到需要的小伙伴. 应用场景:经典上下布局中,顶部导航条固定,下部填充不显示滚动条解决方案:导航条固定在顶部,同时为bo ...

【UWP开发】uwp应用安装失败

原文:[UWP开发]uwp应用安装失败编译出了uwp应用.appx之后双击打开,报错你需要为此应用包而安装的新证书,或者是带有受信任证书的新应用包.系统管理员或应用开发人员可以提供帮助.证书链在不受 ...

ssh整合中，使用sql server遇到的问题，换成mysql没有问题，但是却不能自动添加表结构，请赐教

问题描述最近在搭建ssh框架,在最后的时刻,遇到了这个问题,我用的是sqlserver,首先,驱动包没问题,我以前一直在用这个驱动包,2013-11-0314:43:47,152ERROR[org. ...

持久化框架一定能防止SQL注入？

问题描述持久化框架一定能防止SQL注入吗?用了持久化框架,但是安全扫描的时候还是有SQL注入和盲注的安全漏洞. 解决方案解决方案二:持久化框架用的什么?安全扫描用的什么工具?解决方案三: 解决方案 ...

企业朝着100%云稳步进化

伴随着企业应用云计算的持续深入,已经开始有越来越多的人重视云计算.在过去这10年中,这样的转变从传统软件模型基于互联网解决方案一直保持稳步增长势头.而未来10年,我们努力的方向就是让云计算和移动设备, ...

苹果表示Apple不会追踪用户的定位

摘要: 7月13日凌晨消息,针对CCTV曝光iPhone 手机定位功能收集用户位置信息,涉嫌侵犯隐私的问题,苹果官方发布声明称,Apple不会追踪用户的定位:Apple 以前从未这样做过,以后也永远 ...

LUA中的闭包(closure)浅析_Lua

之前对closure一知半解,在网上也找不到一篇文章能把它说清楚,今天好像第一次对它有点清晰的了解了,写个BLOG记念一下 lua的函数是一种 First-Class Value 的东西, 到底是啥 ...

Android ScrollView只能添加一个子控件问题解决方法_Android

本文实例讲述了Android ScrollView只能添加一个子控件问题解决方法.分享给大家供大家参考,具体如下: 有下面一段代码 <?xml version="1.0" e ...

关于接口的一个问题

问题描述如图,为什么子类要再实现一次接口? 解决方案猜想:AppenderSkeleton是一个抽象类:JDBCAppender是一个实体类.所以JDBCAppender再一次实现这个接口的原因是 ...

13款最好的开源Linux操作系统

操作系统(英语:Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在"裸机"上的最基本的系统软件,任何其他软件都必须在操作系统的支 ...

Tomcat访问不到中文名jsp的解决方案

tomcat的server.xml文件 Xml代码 <Connector port="8080" protocol="HTTP/1.1" ...

未来的道路交通，将是人、车、路三体融合

"互联网+"是国家级战略,互联网正以不可阻挡的趋势渗透到各行各业,各行各业也都因为与互联网和大数据的融合中,更加高效地解决问题.出行是我们每个人的基本需求,随着中国城市化进展与生活 ...

还记得被称为Facebook杀手的 Ello 吗？

摘要: 还记得被称为Facebook杀手的 Ello 吗?它提倡简单.美丽.无广告,以用户为核心打造社交净土,也明确反对Facebook的商业性质对于Facebook来说用户都是产品,广告商才是他们的 ...

java连接数据库问题不显示内容

问题描述我用java连接数据库,没有抛出任何异常,但是我想返回数据库的内容,但是就是没有相关信息.后来我想测试一下,显示连接成功.也就是Connection con的值不为null.进一步测试,我把 ...

气象大数据的大作用

在阿里数据委员会和阿里研究院主办的"2014西湖品学"大数据峰会上,中国气象局纪晓峰发表了<气象大数据的商业服务与研究>的演讲.纪晓峰表示,在过去服务中,气象局提供天气 ...

菜鸟求助：tomcat运行时报错

问题描述菜鸟求助:tomcat运行时报错 2014-12-7 21:53:14 org.apache.catalina.core.ApplicationContext log 信息: PageCon ...

病毒式网站推广

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅病毒式网站推广来源:网络营销学院 ...

oracle-关于Oracle的ORA-12560: TNS:protocol adapter error

问题描述关于Oracle的ORA-12560: TNS:protocol adapter error OS: Windows 8.1Oracle 12c 之前用JDBC连接Oracle一直可以,上午 ...

高达上万元的极草5x冬虫夏草屡屡受媒体质疑

令购买过的消费者一头雾水,这种产品到底能不能放心服用?连日来,人民网记者采访了多位专业人士及监管部门,试图还原极草5x冬虫夏草的真实面目.人民网记者调查发现,目前,极草5x冬虫夏草最受质疑的主要是身份 ...

热搜