《Linux KVM虚拟化架构实战指南》——1.5 本章小结

1.5 本章小结

本章对基于开源Linux虚拟化所使用的主流技术XEN、KVM以及基于KVM的红帽RHEV虚拟化技术进行了介绍，主要涉及其特点、应用领域、优缺点以及今后的发展趋势，最后对OpenStack进行了简要介绍，使读者对基于开源Linux的虚拟化技术有基本的了解。至于如何选择，读者应根据生产环境的实际情况，多做测试后再决定。

时间： 2024-08-01 01:56:15

《Linux KVM虚拟化架构实战指南》——1.5 本章小结的相关文章

《用Python写网络爬虫》——第1章网络爬虫简介 1.1 网络爬虫何时有用

第1章网络爬虫简介本章中,我们将会介绍如下主题: 网络爬虫领域简介: 解释合法性质疑: 对目标网站进行背景调研: 逐步完善一个高级网络爬虫. 1.1 网络爬虫何时有用假设我有一个鞋店,并且想要及时了解竞争对手的价格.我可以每天访问他们的网站,与我店铺中鞋子的价格进行对比.但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现.再举一个例子,我看中了一双鞋,想等它促销时再购买.我可能需要每天访问这家鞋店的网站来查看这双鞋是否降价,也许需要

《用Python写网络爬虫》——第2章数据抓取 2.1 分析网页

第2章数据抓取在上一章中,我们构建了一个爬虫,可以通过跟踪链接的方式下载我们所需的网页.虽然这个例子很有意思,却不够实用,因为爬虫在下载网页之后又将结果丢弃掉了.现在,我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取(scraping). 首先,我们会介绍一个叫做Firebug Lite的浏览器扩展,用于检查网页内容,如果你有一些网络开发背景的话,可能已经对该扩展十分熟悉了.然后,我们会介绍三种抽取网页数据的方法,分别是正则表达式.Beautiful Sou

《用Python写网络爬虫》——导读

前言互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问.但是,这些数据难以复用.它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用.从网页中抽取数据的过程又被称为网络爬虫.随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用. 目录第1章网络爬虫简介 1.1 网络爬虫何时有用1.2 网络爬虫是否合法1.3 背景调研 1.3.1 检查robots.txt 1.3.2 检查网站地图 1.3.3 估算网站大小 1.3.4 识别网站所用技术 1.3.5 寻找网站所有者1.

《用Python写网络爬虫》——1.3 背景调研

1.3 背景调研在深入讨论爬取一个网站之前,我们首先需要对目标站点的规模和结构进行一定程度的了解.网站自身的robots.txt和Sitemap文件都可以为我们提供一定的帮助,此外还有一些能提供更详细信息的外部工具,比如Google搜索和WHOIS. 1.3.1 检查robots.txt 大多数网站都会定义robots.txt文件,这样可以让爬虫了解爬取该网站时存在哪些限制.这些限制虽然仅仅作为建议给出,但是良好的网络公民都应当遵守这些限制.在爬取之前,检查robots.txt文件这一宝贵资源

《用Python写网络爬虫》——1.4 编写第一个网络爬虫

1.4 编写第一个网络爬虫为了抓取网站,我们首先需要下载包含有感兴趣数据的网页,该过程一般被称为爬取(crawling).爬取一个网站有很多种方法,而选用哪种方法更加合适,则取决于目标网站的结构.本章中,首先会探讨如何安全地下载网页,然后会介绍如下3种爬取网站的常见方法: 爬取网站地图: 遍历每个网页的数据库ID: 跟踪网页链接. 1.4.1 下载网页要想爬取网页,我们首先需要将其下载下来.下面的示例脚本使用Python的urllib2模块下载URL. import urllib2 def

《用Python写网络爬虫》——1.2 网络爬虫是否合法

1.2 网络爬虫是否合法网络爬虫目前还处于早期的蛮荒阶段,"允许哪些行为"这种基本秩序还处于建设之中.从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题:而如果数据用于转载,那么抓取的数据类型就非常关键了. 世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的.在Feist Publications, Inc.起诉Rural Telephone Service Co.的案件中,美国联邦最高法院裁定抓取并转载真实数据(比如,电话清单)是允许的.而在澳大利亚,Tel

《用Python写网络爬虫》——1.5 本章小结

1.5 本章小结本章介绍了网络爬虫,然后开发了一个能够在后续章节中复用的成熟爬虫.此外,我们还介绍了一些外部工具和模块的使用方法,用于了解网站.用户代理.网站地图.爬取延时以及各种爬取策略. 下一章中,我们将讨论如何从已爬取到的网页中获取数据.

《用Python写网络爬虫》——2.3 本章小结

2.3 本章小结在本章中,我们介绍了几种抓取网页数据的方法.正则表达式在一次性数据抓取中非常有用,此外还可以避免解析整个网页带来的开销:BeautifulSoup提供了更高层次的接口,同时还能避免过多麻烦的依赖.不过,通常情况下,lxml是我们的最佳选择,因为它速度更快,功能更加丰富,因此在接下来的例子中我们将会使用lxml模块进行数据抓取. 下一章,我们会介绍缓存技术,这样就能把网页保存下来,只在爬虫第一次运行时才会下载网页.

《用Python写网络爬虫》——2.2 三种网页抓取方法

2.2 三种网页抓取方法现在我们已经了解了该网页的结构,下面将要介绍三种抓取其中数据的方法.首先是正则表达式,然后是流行的BeautifulSoup模块,最后是强大的lxml模块. 2.2.1 正则表达式如果你对正则表达式还不熟悉,或是需要一些提示时,可以查阅https://docs.python.org/2/howto/regex.html 获得完整介绍. 当我们使用正则表达式抓取面积数据时,首先需要尝试匹配元素中的内容,如下所示. >>> import re >>&

用Python编写网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 在Python中,我们使用urllib2这个组件来抓取网页. urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件. 它以urlopen函数的形式提供了一个非常简单的接口. 最简单的urllib2的应用代码只需要四行. 我们新建一个文件urllib2_