1.2 网络爬虫是否合法
网络爬虫目前还处于早期的蛮荒阶段,“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题;而如果数据用于转载,那么抓取的数据类型就非常关键了。
世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的。在Feist Publications, Inc.起诉Rural Telephone Service Co.的案件中,美国联邦最高法院裁定抓取并转载真实数据(比如,电话清单)是允许的。而在澳大利亚,Telstra Corporation Limited起诉Phone Directories Company Pty Ltd这一类似案件中,则裁定只有拥有明确作者的数据,才可以获得版权。此外,在欧盟的ofir.dk起诉home.dk一案中,最终裁定定期抓取和深度链接是允许的。
这些案件告诉我们,当抓取的数据是现实生活中的真实数据(比如,营业地址、电话清单)时,是允许转载的。但是,如果是原创数据(比如,意见和评论),通常就会受到版权限制,而不能转载。
无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的IP,甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己。在下面的小节中我们将会对这些实践进行具体介绍。
关于上述几个法律案件的更多信息可以参考下述地址:
http://caselaw.lp.findlaw.com/scripts/getcase. pl?court=US&vol=499&invol=340
http://www.austlii.edu.au/au/cases/cth/FCA/2010/44.html
http://www.bvhd.dk/uploads/tx_mocarticles/S_og_Handelsrettens_afg_relse_i_Ofir-sagen.pdf