大数据何去何从:人民日报四问大数据

  问题一:大数据属于谁?

  杜小勇:获取、记录数据需要耗费资源,因此,数据也就具有了资产的属性。在大数据出现以前,数据依附于具体业务而存在,人们更多的关注在使用数据的软件系统上。没有软件的使用,就没有数据的价值。当时有关数据的归属问题并不那么突出。在大数据时代,数据可以作为一种独立的存在,其“资产”性价值越来越引起人们的重视。

  数据是物理世界客观事物性质、状态的反映,这是客观存在。你去收集了,有特定的表达形式,自然特定格式的数据就是你的。个人、企业、政府、组织都可以合法地去收集数据。如果违反了现有法律收集了数据,自然也是非法拥有,数据财产也是非法的了。

  肯尼思·丘基尔:个人、企业、政府等都可能是数据的拥有者。比如,移动运营商收集个人使用全球定位系统的定位数据。这种情况下,个人成为大数据的来源,移动通信公司投资并收集大数据,以向用户提供更好的服务。类似地,政府可拥有特定的数据,如人口普查数据、天气信息、邮政编码等。不过,我们会对大数据如何使用或者是否应该被收集施加一些限制。

  黄智生:随着智能手机、网络和卫星定位系统的普及,每个人的一举一动都会产生很多数据。个体在购买手机、签署手机合同之时可能就同意手机网络公司有权获得个人位置之类的信息了。

  今后的数据归属权与个人隐私的概念可能越来越无关,而且随着时间的推移,人们对于隐私的看法也在发生改变。以个人位置数据信息为例,以前,人们肯定很不乐意自己的行踪被别人获知。如今,似乎没有人为了不让别人知道自己的行踪而不使用手机。

  欧洲民众要求政府公开信息的诉求越来越强烈,欧盟和欧洲各国的立法也在向这个方向推进。以荷兰为例,除了涉及国家安全和个人隐私的公共信息外,大部分信息都已经实现了公开。民众也有权向政府申请信息公开。

  朱扬勇:关于数据财产,目前法律上存在空白,套用目前的物权法或著作权法等相关法律可能都有些问题。所以,我们只能来谈谈数据权益归属的合理性问题。因为数据不是天然存在的,所以,“数据应该属于数据的生产者”的说法比较合情合理。但是,很多时候数据拥有者很难主张权利,这需要将来制定相应的法律来解决。现在面临的问题主要有两个:一是当数据有多个生产者时如何界定;二是当生产的数据涉及秘密和隐私时如何界定。

  对于第一个问题,可以通过协商解决。例如,某人在电子商务网站购物,购物行为生产的数据是可以由购物者和电商(可能还有第三方支付平台)共同拥有。一般情况下,个人购物数据对个人几乎无用,目前被电商无偿占有了。再比如,微博数据现在几乎已经作为个人资产来看待了,因而微博运营商就不能无偿占有使用微博数据,需要协商处理。对于第二个问题, 就需要法律来界定了。例如,病历数据是病人和医生及医院共同生产的,医院销售病历数据就一定会遇到麻烦,这里不是数据权益的主张问题,而是涉及病人的隐私问题。

  问题二:大数据谁掌控?

  肯尼思·丘基尔:没有哪个机构或者哪个人会拥有大数据的最终控制权。这取决于具体情况,即什么类型的数据、用于何种目的。例如,我们的智能手机传感器可能会识别我们周边的人。这是否意味着我侵犯了别人的隐私呢?也许是的。但这不同于上世纪20年代中期大众摄影时代发生的情形。那个年代,如果有人在大街上对你拍照或者录像,你会觉得受到了干扰。但是,今天,当人们在巴黎卢浮宫前被数百台智能手机拍摄时,大部分人是不会在乎的。

  维克托·迈尔·舍恩伯格:我们仍处在大数据时代的初始阶段,谁来掌控大数据或者谁来使用,在何种条件下又受到何种规范,大数据未来的储存和流动方式等,都还处于未知的状态,我们无法给出准确的答案。但是社会的各个领域已经有很多这方面的尝试,未来在这方面也一定会出现更多的创新。

  未来对大数据规范管理的重点仍旧需要集中在个人信息的使用方面,而不是数据的采集和交易过程。采集数据的过程并不会带来太多的麻烦,关键问题在于有可能产生数据滥用。因为互联网公司可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理成章地成了最新处理技术的带头实践者。它们甚至超过了很多有几十年经验的线下公司,成为新技术的领衔使用者。但事实上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。

  黄智生:目前网络上的数据庞大,但绝大部分数据都是由公司进行管理的。比如个人的邮件系统,无论个人使用哪一家公司的邮件系统,提供商都可以看到这些邮件。但是这些公司的员工必须遵守职业道德,而且有严格的调阅规章制度,法律中对私自查看或泄露别人网络隐私的行为也会进行严厉打击。

  公共数据可以由政府进行管理,但必须严格遵守法律。在欧洲,个人、公司和组织有权拒绝向政府或执法机关提供数据。比如,我在阿姆斯特丹留学期间,荷兰警方要求我们学校提供所有华人留学生的住址,但学校表示,荷兰法律没有规定我们有义务向警方提供此类信息。但如果涉及国家安全,又有法律可循,那么欧洲的政府是有权管理相关数据的。

  问题三:大数据存多久?

  维克托·迈尔·舍恩伯格:我们所处的时代之所以与众不同,是因为数据的收集不再存在固有的局限性。技术已经发展到一定程度,大量信息可以被廉价地捕捉和记录。数据收集往往是被动的,人们无须投入太多精力,甚至不需要认识这些数据。而且,由于存储成本的大幅下降,保存数据比丢弃数据更加容易。这使得以较低成本获得更多数据的可能性比以往任何时候都大。在过去50年中,数字存储成本大约每两年削减一半,而存储密度则增加了5000万倍。大部分数据的直接价值对收集者而言是显而易见的。数据的基本用途为信息的收集和处理提供了依据。

  随着时间的推移,大多数数据都会失去一部分基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。然而,并非所有的数据都会贬值。有些公司提倡尽可能长时间地保存数据,即使监管部门或公众要求它们短时间内删除或隐匿这些信息。这就解释了为什么一直以来,谷歌都拒绝将互联网协议地址从旧的搜索查询中完全删除。谷歌希望得到每年的同比数据,如假日购物搜索等。

  黄智生:目前似乎没有法规要求在一定的时限后销毁数据。如银行的个人财务信息等内容,反而要求一定期限内不准销毁。而且现在存储数据的成本很低,所以各公司都尽量将各自产生的数据储存下来。虽然世界主要技术公司的总部大多在美国,但并非所有的数据都储存在美国,世界各地都会有这些公司的服务器和存储系统。不过这些技术公司的高级管理人员可以很容易地查阅到世界各地的数据。从这个方面来讲,存放在哪里并不重要,只要网络能连接就可以了。如美国政府搜集的所谓“事关国家安全”的信息,政府更不会将其销毁,只会越积越多。相对于较低的储存成本,真正耗资的是筛选和运算成本。从山一样的数据中挑选砂一样的有用信息,实在很困难。

  虽然目前WEB3.0系统已经能够做到低智能、大数据量的筛选工作,但依然达不到实战需要,代替不了人的作用。这如山一样的数据,是政府的一种负担,也是一个鸡肋。但不能说这些数据就没有用,比如警方确定了一个犯罪分子身份,就可以依法向网路服务商、手机服务商索取这个犯罪分子之前的所有信息,并通过这些积累的信息进行分析筛选。

  法迪·谢哈德:互联网名称与数字地址分配机构(ICANN)成立之时完全由美国政府主导,招致许多非英语国家,特别是发展中国家人士的不满。互联网域名相当于网络空间的门牌号,本来是一个全球性系统。ICANN在2009年与美国商务部签署协议,此后不再对该部门负责,并使国际利益相关方在ICANN监管全球域名系统时拥有更多发言权。我们应该增加互联网领域的透明度,而不让某个国家或地区把互联网控制起来,各国、各地区应该更加平等地分享网络数据资源。

  杜小勇:拥有数据的组织可以决定数据放在哪、如何存、存多久等。如果数据是企业的生命线,他自然会考虑安全、经济、高效等多种因素。为了信息安全,企业一般会采取异地备份等成本更高的手段。据称,“9·11”事件后,有些拥有更完善的数据备份体系的公司很快就恢复了业务,而另一些公司则由于数据损毁而走向破产。企业数据要存多久,也是一个需要权衡各种因素后的决策。这是企业自主的行为,除非建立在这些数据之上的业务还有其他法律上的要求。

  我们可能关心的是另一个问题,即国家层面的信息安全。有人提出“信息疆域”的概念。也就是说,土地、海洋、空间都有国家的属性(领地、领海、领空),数字空间中是否也有“主权”的概念?大型跨国公司,通过种种业务渗透到日常生活的方方面面,因此可以采集到一个国家方方面面的数据。于是,国外机构对一个国家情况的了解甚至有可能超过该国自身,这显然会直接威胁到国家安全。

  因此,国家对于跨国企业的数据传输、数据备份、数据使用等应有所限制,并进行监控,这十分必要。国家应该对此立法保障。有些数据有法律的保护,如测绘数据,其他更多种类的数据,目前还没有类似的法律。

  问题四:大数据怎么用?

  维克托·迈尔·舍恩伯格:随着世界开始迈向大数据时代,社会也将经历类似的地壳运动。在改变我们生活和思维方式的同时,大数据早已在推动我们重新考虑最基本的准则,包括怎样鼓励其增长以及怎样遏制其潜在威胁。然而,不同于印刷革命,我们没有几个世纪的时间去慢慢适应,我们也许只有几年时间。

  在大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险,我们需要全新的制度规范。我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人认可上。

  肯尼思·丘基尔:对大数据技术进行规范是问题的关键。首先,可以从强调监管大数据的收集,转向重点监管大数据的实际使用。其次,可以让大数据变得不那么神秘,不再是个“黑箱”,增加大数据应用中的透明度和问责制。可创造一个被称为“算法学家”的新职业,这些人接受计算机技术、统计学和数据处理方面的专门训练,对大数据的应用进行评估,以确保公众对大数据系统感到放心。

  至于平衡隐私权和国家安全的问题,古希腊哲学家亚里士多德早就提出这样的问题:“我们如何监视守护者?”即使是在他那个年代,这个问题也没有简单的答案。

  斯蒂夫·帕尔默:大数据给我们带来的真正机遇是把许多信息碎片拼起来,为我们的决策服务。大数据时代最大的挑战是如何从大数据中获取“价值”。从大数据中获取最大价值,需要探索式的研究方法。未来,数据科学家会很吃香,这种科学家既要熟悉商业环境,也要有操作层面的知识。

  杜小勇:很多问题就出在数据使用上!数据作为资产,就涉及管理的问题,因此“数据治理”就显得越发重要。信息世界同样需要公约,将窃取他人数据视为犯罪,将攻击他人系统视为犯罪,从刑法上加以明确规定,共同营造一个文明有序的数字生活,应该是我们的理想。大数据时代,我们需要尽快跟进这方面的工作,如开展国家间对话,形成公约。

  企业利用数据挖掘技术,进行精准广告投放,也涉及隐私问题。一个少女收到了婴儿用品广告,其父大怒,要告企业。事实却是这位少女未婚先孕了。这个故事中,企业使用的是自己采集的客户购物数据,使用的是自己开发的数据挖掘软件,整个过程都没有问题。但事实上却侵犯了个人隐私,应坚决反对。这里面应该有一些法律问题,需要认真研究。

  朱扬勇:“大数据时代,数据作为资源,不被共享是趋势。”这样的话,数据运用一定需要价值交换。在确定数据权益的前提下,数据的运用就是有偿使用。法律需要界定数据的权益,政府界定数据的类型(哪些是隐私,哪些涉及国家安全)等,这样数据的流通就有法可依。

  在现阶段法律法规都还没有明确之前,应从国家安全的角度高度关注数据资源的安全。而作为个人,要明白“有行动就可能产生数据”,所以当有些行为涉及隐私时,需要谨慎。

  从更大的范围来讲,公共网络中公开的数据应该属于全人类,任何人都有权获取、使用并获益。这样能够更大程度地发挥数据资源的作用,让数据给人类的生活生产带来更多便利,对人类社会进步有重要的意义

时间: 2024-11-01 12:32:02

大数据何去何从:人民日报四问大数据的相关文章

四问大数据?

问题一:大数据属于谁? 杜小勇:获取.记录数据需要耗费资源,因此,数据也就具有了资产的属性.在大数据出现以前,数据依附于具体业务而存在,人们更多的关注在使用数据的软件系统上.没有软件的使用,就没有数据的价值.当时有关数据的归属问题并不那么突出.在大数据时代,数据可以作为一种独立的存在,其"资产"性价值越来越引起人们的重视. 数据是物理世界客观事物性质.状态的反映,这是客观存在.你去收集了,有特定的表达形式,自然特定格式的数据就是你的.个人.企业.政府.组织都可以合法地去收集数据.如果违

企业级大数据备份:十问重复数据删除技术

仅仅在几年以前,重复数据删除还是一个独立的功能,重复数据删除为企业备份和归档部门的存储系统提供另一种选择.同时也在云端网关找到了新的用途,当数据进入阵列或虚拟磁带库之前过滤掉不必要的数据块.现在,它已经成为统一计算系统预先集成的功能.而了解如何更有效的使用这项技术成为一种需求.于此同时IT经理应该重新审视存储问题并询问为其提供存储的供应商. 1. 重复数据删除技术对备份性能将产生什么影响? 对于业务成倍增长的大型企业来说高性能是至关重要的.同时企业还需在有限的备份环境内确保海量数据备份环境的安全

对硅谷和硅谷科技公司的十四问:估值泡沫/大数据等

从硅谷公司哪家强,到人人在议的泡沫问题,大数据和人工智能如何结合?2015年的科技前瞻是怎样一副图景?来自硅谷的Coursera软件工程师董飞将其近日在斯坦福公开讲座上的干货和各种场合的问答整理出来和大家分享.文中有他的一手从业经验,也有其对亲身就职或深度研究过的一些公司具体分析,如Hadoop.Amazon.LinkedIn等.董飞的知乎页面在这里,邮箱是dongfeiwww@gmail.com. 1.目前硅谷最火最有名的高科技创业公司都有哪些? 在硅谷大家非常热情的谈创业谈机会,我也通过自己

初学者,想问大神,如何比较一组数据, 不同类型的 数据 ?求指教

问题描述 初学者,想问大神,如何比较一组数据, 不同类型的 数据 ?求指教 想问大神,如何比较一组数据, 不同类型的 数据 ?求指教,别人说可以用链表(我不会)有别的方法吗 解决方案 比较数据的关键不在链表还是数组,而在于算法本身. 如果你觉得链表复杂,就用数组,以及任何你可以用来表示一组数字的类型. 解决方案二: 不同类型的 数据,你的比较规则是什么? 一组数据,是如何保存的呢?如果是连续保存,直接按内存中的内容比较,简单一些:除非是按链表保存的,才可以用链表.否则不是在自找麻烦! 解决方案三

大数据要经得起三问:从哪来怎么用谁买单

资料图片 当我们面对一项大数据应用时,只要简单问一问3个问题--数据哪里来.数据怎么用.成果谁买单--就能揭开许多"伪装".日前由中国管理科学学会大数据管理专委会.国务院发展研究中心产业互联网课题组发布的<大数据应用蓝皮书:中国大数据应用发展报告No.1(2017)>指出,如许多应用并没有可靠的数据来源,或者数据来源不具备可持续性:还有些应用并没有技术或市场支撑,只是借助大数据风口套取政府部门或一些投资者的"傻钱"罢了.当然,如果经得起上述"大

sql-求问大神SQL,如何关联两张表后,将第二张表的数据插入第一张表数据第一行后面(详细内容在图片中)

问题描述 求问大神SQL,如何关联两张表后,将第二张表的数据插入第一张表数据第一行后面(详细内容在图片中) 刚注册,无法悬赏,求答案啊~~~~(>_<)~~~~ 解决方案 以前写的SQLServer和Oracle两张表一一对应的SQLhttp://blog.csdn.net/danielinbiti/article/details/43231879 解决方案二: insert into 表1(订单编号,SKU)select 订单编号,订单退款 from 表2

成就大数据的“第四个V”

无论是接受还是拒绝,中国金融业的大数据时代正在呼啸而至.据调查,经过多年的发展与积累,目前很多国内金融机构的数据量级已经达到100TB以上.而且,非结构化数据量正在以更快的速度增长.在高数据强度的金融行业,这一发展激起了巨大的想象空间.然而,要抓住这一机遇并非易事. 基于多年的研究与全球项目实操经验,波士顿咨询公司(BCG)系统梳理了大数据在全球金融行业的发展现状.潜在应用.关键瓶颈及应对方案,旨在协助金融机构从价值的角度更好地理解大数据,并在大数据迅速渗入金融业务各个层面的当下抓住发展机遇.

大数据入门的四个必备常识

一.大数据分析的五个基本方面 1.可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了. 2.数据挖掘算法 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值.另外

离完美有点远 破解四个大数据神话

文章讲的是离完美有点远 破解四个大数据神话,迄今为止,大数据一直都存在争议.似乎每家软件厂商.每家咨询公司,以及每个思想领袖都在尝试着对"大数据"做出准确的定义.尽管目前还没有出现这样的定义,但是打破关于大数据的神话将有助于我们认识大数据. 神话1:你能够获得所有的数据 在许多方面,我们正生活在一个前所未有的时代当中.我们从来都没有像现在这样能够获得如此多的数据.此前一直被人们所忽视的兆字节.拍字节和艾字节数据如今已经出现了.在如今的工业化社会中,平均每个人一天所消费的信息量超过了生活