一淘网的数据抓取和插件屏蔽涉及的法律问题

  今天探讨B2C购物网站京东商城和阿里巴巴集团旗下的比价网站一淘网的数据抓取和插件屏蔽涉及的法律问题。说明下,笔者和两网站均无业务关系和联系。先介绍背景:

  2011年11月,京东商城采取技术措施,屏蔽一淘网搜索引擎,一淘网随后在微博表示不再直接抓取京东商城的价格数据,但近期又在京东商城与苏宁的价格战中实时公布京东商城和其他购物网站商品价格比较。近日,京东商城又在其网站屏蔽了一淘网的浏览器插件,该插件向用户实时提供包括京东商城在内的各大购物网站同款商品价格,一淘网方面表示京东商城是在破坏其软件运行。以上事件主要涉及两个法律问题,下面我们逐一进行讨论。

  问题一、一淘网不经京东商城许可,强行抓取其价格数据有没有违法?

  互联网也是按照一定规则进行运行的,最基本的就搜索引擎规则是:如果网站不同意搜索引擎抓取信息并采取相应的技术措施,搜索引擎就不应抓取。因此,鉴于京东商城在其专门用于搜索引擎访问的robots.txt文件中加入了屏蔽一淘网的信息,一淘网就不可以继续抓取了。

  可能有读者会问:既然京东商城的网站页面都是公开的,任何一个互联网使用者都可以访问,为什么一淘网不可以访问呢?答:对消费者开放访问和对搜索引擎以及竞争对手开放数据抓取是两个问题,普通消费者了解的只是部分产品价格,而一淘网这样的搜索引擎网站,一下子就把成千上万商品的价格全部抓取,并且还同竞争对手网站的价格进行比较,其性质显然不是普通的消费者。

  规范一淘网和京东商城之间关系的,是市场经营者之间的竞争法律《反不正当竞争法》。根据该法第二条规定:经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。不得违反该法规定,损害其他经营者的合法权益,扰乱社会经济秩序的行为。笔者认为,虽然现行的法律没有详细到规定网站有权采取技术手段屏蔽搜索引擎的网页抓取,但搜索引擎也应该遵循公认的搜索引擎抓取数据原则,否则就涉嫌破坏经济秩序且有违诚信。

  问题二、京东商城在其网站页面屏蔽一淘网的浏览器插件有没有违法?

  先说个让笔者无法理解的问题:既然京东商城已经屏蔽了一淘网的搜索爬虫,一淘网也在微博承诺不直接抓取京东商城的数据了,那一淘网比价插件中显示的京东商城上万件商品的实时价格数据是怎样取得的?笔者倾向于认为,一淘网还是或直接或间接的抓了京东商城的数据,具体如何还请技术达人网友留言指点一下。

  言归正传,一淘网对于京东商城在其网页上屏蔽一淘网浏览器比价插件的反应激烈,声明中使用了“恶意破坏”这样比较严重的词,那么京东商城的做法到底有没有问题?先打个比方:顾客进了一家商店,想买家电,一个第三方导购员在店堂告诉顾客,隔壁店的东西更便宜,此时作为此店的店主,能不能把这个导购员赶出店堂?京东商城说:我的地盘我做主,一淘网出去。一淘网说,我是顾客授权的导购,所以京东商城没权利赶我走。当当、库巴、国美三家隔壁店家说:我们欢迎导购员。

  笔者认为:现实生活中店家显然有权赶走这个导购员,互联网上也是一样。即便一淘网插件得到了用户的授权,但如果京东商城不同意,一淘网也不能用户随心所欲的在京东商城展示其他网站的商品价格。如果京东商城在其竞争对手,比如当当、库巴、国美页面上屏蔽一淘网比价插件,那显然是违法的,但现在京东商城屏蔽的是自家网页上的一淘网比价插件,这显然不是恶意破坏,而是该网站正当的权利。

  实际用户并不总是对的。笔者一直认为一淘网插件看似迎合消费者,但本质上是个破坏电子商务生态的产品:一淘网索引几乎所有主流电子商务网站的数据,其浏览器插件更是把所有产品的价格都透明化了,但对电子商务网站和产业而言,网站将因此陷入同质化的价格竞争而无法盈利。实际类似京东商城这样的大型购物网站的定价策略非常复杂,哪些产品低价吸引用户,哪些产品微利,哪些产品赚钱都涉及经营策略,而象一淘网这样,在一家网站的页面上把其他网站的价格都展示出来,会导致用户只购买一个网站相对价格最低的产品,长此以往,任何网站都将无法盈利。实际这也是阿里巴巴旗下另一网站淘宝网现在面临的发展困境,店铺的间竞争变成了同质化的价格竞争。

  最后,几年前阿里巴巴旗下的淘宝网曾经屏蔽了百度搜索引擎,马云还斥百度为不良搜索引擎,但百度在被淘宝网屏蔽后,没有抓取其网页(至少阿里巴巴方没有抱怨过百度违规),而今一淘网被屏蔽时却依然可以实时显示京东商城的价格数据,这确实让笔者对汉语中的“不良”一词有了重新认识。

时间: 2024-12-02 17:55:38

一淘网的数据抓取和插件屏蔽涉及的法律问题的相关文章

最淘网陈华:电商无法屏蔽购物搜索抓取

最淘网CEO陈华 认为,从技术上讲,电商网站根本无法完全屏蔽一淘购物搜索(TechWeb配图)10月28日消息,日前京东.苏宁易购.当当相继屏蔽一淘网的内容抓取,掀起一场电商与购物搜索之间的混战.但网上购物导航促销平台最淘网CEO陈华对TechWeb表示,从技术上来说,电商网站根本无法完全屏蔽一淘购物搜索.陈华称,从技术角度,电商网站根本无法屏蔽一淘等购物搜索网站的抓取.陈华在微博中描述了多种搜索技术与反搜索技术的博弈,他认为,无论电商采取屏蔽蜘蛛 user- agent.屏蔽ip.用图片隐藏价

《Clojure数据分析秘笈》——1.8节从网页表中抓取数据

1.8 从网页表中抓取数据互联网上数据无处不在.遗憾的是,许多互联网上的数据不易获得.这些数据深埋于表.文章或者深层嵌套的标签中.网络抓取是一件让人讨厌的体力活,但是它通常又是唯一能将这些数据取出用于分析的手段.本方法描述如何加载网页并挖掘其内容以便取出数据.使用Enlive库(https://github.com/cgrand/enlive/wiki)可以完成这项工作.这个库使用基于CSS选择器的领域专用语言(Domain-Sepecific Language,DSL)在网页中定位元素.这个库

网站数据抓取之争

对于信息抓取,很多情况下难以通过 版权侵权的角度有效阻止,但是仍然可以选择不正当竞争的角度予以解决文 赵占领4月16日,大众点评网对外宣布:网易于近日上线的移动客户端"饭饭"大量抄袭来自大众点评网的内容(商户信息以及餐厅特色.推荐菜.人均价格等),而这些内容是大众点评网从2003年开始付出了大量的人力.物力以及时间等经济成本创造起来的.大众点评网表示,网易应立即停止抄袭.停止不正当竞争行为,将网易"饭饭"下架,否则大众点评网将对网易采取相关的法律措施.对于大众点评网

数据抓取的艺术(三):抓取Google数据之心得

 本来是想把这部分内容放到前一篇<数据抓取的艺术(二):数据抓取程序优化>之中.但是随着任务的完成,我越来越感觉到其中深深的趣味,现总结如下:    (1)时间      时间是一个与抓取规模相形而生的因素,数据规模越大,时间消耗往往越长.所以程序优化变得相当重要,要知道抓取时间越长,出错的可能性就越大,这还不说程序需要人工干预的情境.一旦运行中需要人工干预,时间越长,干预次数越多,出错的几率就更大了.在数据太多,工期太短的情况下,使用多线程抓取,也是一个好办法,但这会增加程序复杂度,对最终数

数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置

数据抓取是一门艺术,和其他软件不同,世界上不存在完美的.一致的.通用的抓取工具.为了不同的目的,需要定制不同的代码.不过,我们不必Start from Scratch,已经有许多的基本工具.基本方法和基础框架可供使用.不同的工具.不同的方法.不同的框架的特点也不同.了解这些工具.方法和框架是首要任务,接下来就需要明白它们的差异都在哪里.什么情境该用什么东东,最后才是析出规则.编写代码.运行程序来抓取数据.所以说,其实数据抓取的学习路线,不但很长而且很杂.     为了一个特定的目的,我需要爬取G

07-爬虫的多线程调度 | 01.数据抓取 | Python

07-爬虫的多线程调度 郑昀 201005 隶属于<01.数据抓取>小节 一般让爬虫在一个进程内多线程并发,有几种方法: Stackless :Stackless Python是Python的一个增强版本.Stackless Python修改了Python的代码,提供了对微线程的支持.微线程是轻量级的线程,与前边所讲的线程相比,微线程在多个线程间切换所需的时间更多,占用资源也更少. Twisted :主要利用 Twisted 中的异步编程能力.如 addCallback , callLater

用javascript解决外部数据抓取中的乱码问题_应用技巧

我们一般会在两个地方用到外部数据抓取,一个是在asp中,一个是在hta中.如果外部数据是gb2312编码的,就涉及到转码的问题,但是传统的用vbs函数进行处理的方法,运算量比较大,有些特殊字符还会出错.    如果用adodb.stream控件来进行转码,就简单多了,不需要借助vbs的二进制处理函数了,同时速度快了很多. 复制代码 代码如下: <script>  function loadData(sUrl){      var xh      xh=new ActiveXObject(&qu

数据抓取的一个类,包含一些常用的方法

原文:数据抓取的一个类,包含一些常用的方法 using System;using System.Configuration;using System.IO;using System.Net;using System.Text;using System.Text.RegularExpressions; namespace XXX{    /// <summary>    /// Func 的摘要说明.    /// </summary>    public class Func   

数据抓取的艺术(二):数据抓取程序优化

      续前文:<数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置>. 程序优化:第一步开始: for i in range(startx,total):     for j in range(starty,total):         BASE_URL = createTheUrl([item[i],item[j]])         driver.get(BASE_URL)         driver = webdriver.PhantomJS()