《用Python写网络爬虫》——1.2 网络爬虫是否合法

1.2 网络爬虫是否合法

网络爬虫目前还处于早期的蛮荒阶段，“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看，如果抓取数据的行为用于个人使用，则不存在问题；而如果数据用于转载，那么抓取的数据类型就非常关键了。

世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的。在Feist Publications, Inc.起诉Rural Telephone Service Co.的案件中，美国联邦最高法院裁定抓取并转载真实数据（比如，电话清单）是允许的。而在澳大利亚，Telstra Corporation Limited起诉Phone Directories Company Pty Ltd这一类似案件中，则裁定只有拥有明确作者的数据，才可以获得版权。此外，在欧盟的ofir.dk起诉home.dk一案中，最终裁定定期抓取和深度链接是允许的。

这些案件告诉我们，当抓取的数据是现实生活中的真实数据（比如，营业地址、电话清单）时，是允许转载的。但是，如果是原创数据（比如，意见和评论），通常就会受到版权限制，而不能转载。

无论如何，当你抓取某个网站的数据时，请记住自己是该网站的访客，应当约束自己的抓取行为，否则他们可能会封禁你的IP，甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内，并且还需要设定一个专属的用户代理来标识自己。在下面的小节中我们将会对这些实践进行具体介绍。

关于上述几个法律案件的更多信息可以参考下述地址：

http://caselaw.lp.findlaw.com/scripts/getcase. pl?court=US&vol=499&invol=340

http://www.austlii.edu.au/au/cases/cth/FCA/2010/44.html

http://www.bvhd.dk/uploads/tx_mocarticles/S_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf

时间： 2024-10-30 21:22:23

《用Python写网络爬虫》——1.2 网络爬虫是否合法

1.2 网络爬虫是否合法

《用Python写网络爬虫》——1.2 网络爬虫是否合法的相关文章

【Python爬虫1】网络爬虫简介

基于Python实现的百度贴吧网络爬虫实例_python

解决python写的爬虫程序抓取到的网页是乱码的问题

java网络编程-Java写了个简单的网络编程程序，运行没有结果，求解谢谢！

沃茨尼亚克写公开信请求FCC保持网络的开放性

android-关于用python写服务器的问题

用Python写成的MCR乐队敲诈者木马：这种操作很朋克！

FC网络学习笔记02 -网络配置方法

【求助】用Python写出一个遍历网站所有url的小工具

【Python爬虫8】Scrapy 爬虫框架