《用Python写网络爬虫》——1.2 网络爬虫是否合法

1.2 网络爬虫是否合法

网络爬虫目前还处于早期的蛮荒阶段,“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题;而如果数据用于转载,那么抓取的数据类型就非常关键了。

世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的。在Feist Publications, Inc.起诉Rural Telephone Service Co.的案件中,美国联邦最高法院裁定抓取并转载真实数据(比如,电话清单)是允许的。而在澳大利亚,Telstra Corporation Limited起诉Phone Directories Company Pty Ltd这一类似案件中,则裁定只有拥有明确作者的数据,才可以获得版权。此外,在欧盟的ofir.dk起诉home.dk一案中,最终裁定定期抓取和深度链接是允许的。

这些案件告诉我们,当抓取的数据是现实生活中的真实数据(比如,营业地址、电话清单)时,是允许转载的。但是,如果是原创数据(比如,意见和评论),通常就会受到版权限制,而不能转载。

无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的IP,甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己。在下面的小节中我们将会对这些实践进行具体介绍。

关于上述几个法律案件的更多信息可以参考下述地址:

http://caselaw.lp.findlaw.com/scripts/getcase. pl?court=US&vol=499&invol=340

http://www.austlii.edu.au/au/cases/cth/FCA/2010/44.html

http://www.bvhd.dk/uploads/tx_mocarticles/S_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf

时间: 2024-10-30 21:22:23

《用Python写网络爬虫》——1.2 网络爬虫是否合法的相关文章

【Python爬虫1】网络爬虫简介

调研目标网站背景 1 检查robotstxt 2 检查网站地图 3 估算网站大小 4 识别网站所有技术 5 寻找网站所有者 第一个网络爬虫 1 下载网页 重试下载 设置用户代理user_agent 2 爬取网站地图 3 遍历每个网页的数据库ID 4 跟踪网页链接 高级功能 解析robotstxt 支持代理Proxy 下载限速 避免爬虫陷阱 最终版本 1 调研目标网站背景 1.1 检查robots.txt http://example.webscraping.com/robots.txt # se

基于Python实现的百度贴吧网络爬虫实例_python

本文实例讲述了基于Python实现的百度贴吧网络爬虫.分享给大家供大家参考.具体如下: 完整实例代码点击此处本站下载. 项目内容: 用Python写的百度贴吧的网络爬虫. 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行. 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地. 原理解释: 首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页之后url发生了一点变化,变成了: http://tieba.baidu.com/p/2296712428?see_lz=

解决python写的爬虫程序抓取到的网页是乱码的问题

在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,怎么办? 下面所说的都是针对python2.7 如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码. #chardet 需要下载安装 import chardet #抓取网页html html_1 = urllib2.urlopen(line,timeout=120).read() #print html_1 mychar=chardet.detect(html_1) #print myc

java网络编程-Java写了个简单的网络编程程序,运行没有结果,求解谢谢!

问题描述 Java写了个简单的网络编程程序,运行没有结果,求解谢谢! import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStream; import java.io.PrintStream; import java.io.PrintWriter; import ja

沃茨尼亚克写公开信 请求FCC保持网络的开放性

沃茨尼亚克写公开信 请求 FCC保持网络的开放性虽然FCC已经在上周通过了"网络中立"法案,但这并不代表了它就是一个受人欢迎的法案,比如多家互联网网络, 它们就已经 纷纷表达了对该法案的不满.现在,苹果公司的联合创始人史蒂夫·沃兹尼亚克也公开发表了一份信件,以此表达自己对"网络中立"的态度.沃茨尼亚克在信件中表示,自己更愿意支持网络开放化,因为 所谓的"中立"不仅会直接忽略掉用户应当享受到的服务品质,而且还将扼杀掉可能在行业中出现的创造.沃茨尼亚

android-关于用python写服务器的问题

问题描述 关于用python写服务器的问题 本人学生,最近在做课程设计,写一个Android的移动应用,需要编写一个服务器,同学推荐我用python来写,不知道好写么,另外写完后连接java写的客户端好连接么?现在初步打算是在手机上装好客户端,然后电脑上运行服务器后,手机连上电脑的WIFI来实现客户端和服务器的连接,这样好么?ps:本人没学过python,如果好写的话就去现学 解决方案 好写,python做一个网站或者web服务,java通过web接口调用.不需要网络连接这些底层的编程知识. 解

用Python写成的MCR乐队敲诈者木马:这种操作很朋克!

本文讲的是用Python写成的MCR乐队敲诈者木马:这种操作很朋克!,几年前,敲诈者木马还是一个默默无闻的木马种类.然而,由于其极强的破坏力和直接且丰厚的财富回报,敲诈者木马这几年已经一跃成为曝光率最高的木马类型--甚至超越了盗号木马.远控木马.网购木马这传统三强.与此同时,各种敲诈者木马也在不断推陈出新,变着花样地出现在分析人员的视野中. 去年,360安全团队就发现了一款使用PHP语言编写的敲诈者木马(具体内容参考<用世界上最好的编程语言写成的敲诈者木马>).最近,一款使用Python语言编

FC网络学习笔记02 -网络配置方法

随着新一代飞机的综合化航电系统对通信需求的不断提高,传统的ARINC429.1553B总线的传输速率分别只有100Kbps和1Mbps,其带宽已远远不论文联盟http://Www.LWlm.cOm能满足系统通信的需求,无法为高性能数据处理提供有力的通信支撑. FC网络是一种高速串行通信技术,速率可以达到1Gbps.2Gbps,甚至到4Gbps以上,同时还具备低延迟.可靠性高.重量轻.体积小,且应用灵活等特点,是一种新型的高速通信技术.定义了FC-AE以及ARINC818等专门应用于机载环境的高层

【求助】用Python写出一个遍历网站所有url的小工具

问题描述 [求助]用Python写出一个遍历网站所有url的小工具 用Python 怎么写出一个 遍历网站所有url的小工具, 包括首页的url和所有子网页url 不能有重复的url,我自己写的只能遍历一个网页的 首页,子网页的遍历不出来,新人 没币 ,求好心人帮助!!! 解决方案 http://www.cnblogs.com/fnng/p/3576154.htmlhttp://www.oschina.net/code/list_releted_codes?id=25402 解决方案二: htt

【Python爬虫8】Scrapy 爬虫框架

安装Scrapy 新建项目 1定义模型 2创建爬虫 3优化设置 4测试爬虫 5使用shell命令提取数据 6提取数据保存到文件中 7中断和恢复爬虫 使用Portia编写可视化爬虫 1安装 2标注 3优化爬虫 4检查结果 使用Scrapely实现自动化提取 1.安装Scrapy 用pip命令安装Scrapy:pip install Scrapy wu_being@ubuntukylin64:~/GitHub/WebScrapingWithPython$ scrapy -h Scrapy 1.3.0