大数据时代的记忆与遗忘

斯塔西·施耐德(Stacy Snyder)曾经的梦想是成为一名教师。2006年夏天,她完成了获取教师资格证书所需的课程并通过了所有考试;然而她的梦想却在即将实现之时突然破灭她所在学校的一位负责人告诉她,她无法取得教师资格证书。

学校负责人展示了一张她上传到自己的MySpace页面上的照片,照片上的她戴着一顶海盗帽,正端着一只塑料杯饮酒。这张照片是她向自己朋友展示的,甚至可能只是搞怪,但学校认为这样的行为与教师的标准不符。斯塔西向学校承诺将这张图片从网上删除,然而为时已晚照片早已被搜索引擎索引,并被网络爬虫所记录。她希望她的照片被遗忘,然而互联网并不允许。

这是牛津大学互联网学院的教授维克托·迈尔-舍恩伯格(Viktor Mayer-Sch?nberger)在2009年出版的《删除:数字时代遗忘的价值》(中译版为《删除:大数据时代的取舍之道》,以下简称《删除》)一书中引用的一个案例。他告诉读者,遗忘本是人类的天性,但随着">信息技术的发展,记忆变得越来越容易,遗忘却越来越困难;无法遗忘不仅会给个人带来不必要的困扰,也给企业制造了麻烦他们存储的数据日益增加,但其中很多随着时间的推移而失去了价值。因此,他呼吁引入一种遗忘的机制,例如为数据设定一个保存期限,“让我们记得去遗忘”。

尽管没能提出切实可行的“遗忘”方法,但《删除》独特的视角仍受到了学术界和互联网业界的广泛关注;这本书不仅获得了多项图书奖,还被翻译为德语、意大利 语、韩语等不同语言。

当“大数据”成为业界新的热点之时,在这一领域有着深入研究的维克托于近日出版了其新作《大数据时代:生活、工作与思维的大变革》(以下简称《大数据时代》),通过一个个生动的案例向读者介绍大数据的价值及其将会带来的改变。

12月11日,维克托携两本书的中译本来到北京,在不同场合与读者及业内人士交流大数据相关的话题。

三大转变定义大数据

大数据是今年IT界最热门的概念之一,然而对于“大数据是什么”,连许多经常谈论这一概念的从业者也无法给出准确的答案。正因为如此,大数据也被质疑为一个炒作出来的伪命题。

维克托也并未直接给出大数据的定义在《大数据时代》的引言部分,他就明确指出“大数据并非一个确切的概念”。不过,他用三大转变描述了大数据的特性。并详细阐释了这三个转变:

“首先,在大数据时代,我们可以获得和某个现象相关的所有数据,而不只是少量的样本。例如一项针对相扑比赛中非法操纵比赛结果的研究对64000场比赛进行了分析,这算不上一个很大的数字,但由于这是过去十年所有的比赛,所以它是大数据。大数据是相对的而非绝对的。”

“第二,由于有了更多的数据,我们可以接受更多的混杂、更多数据上的不精确。如果我们对于一个事物只有50个数据点,那么每一个数据点都必须非常精确,因为每个数据点都是有用的;但是如果我们有5000万个,去掉10个,甚至去掉1000个都没有太大的问题。”

“第三,我们分析大数据主要为了预测未来"是什么",而不是"为什么"。我们关注的是揭示哪些事情将会发生的相关关系,而非揭示为什么这些事情会发生的因果关系。因为很多时候我们以为我们找到了事情背后的原因,实际上却没有找到。更多时候知道了"是什么"就足够了。例如知道流感将会扩散到哪里就足够了,我不需要知道为什么;知道什么时候在网上购买机票能够获得最优惠的价格就足够了,我不需要知道为什么此时价格最低。”

大数据不应被过分炒作

表面上看,此次出版的两本书相互矛盾:《大数据时代》强调了数据的价值,而《删除》却提出数据应该能够被“忘记”。对此,维克托表示,两本书相互补充,而以上的两个观点可以完美地相互作用。

“大数据只有在没有噪音、没有无用的数据的情况下才能很好地发挥作用。在《删除》中,我认为我们需要有摆脱那些过时的、和我们现在不相关的数据的可能性。如果亚马逊忘记了和你当前的兴趣与偏好不相关的购书记录,它推荐书的效果将会更好。只有好的数据才能带来好的预测。”

对于大数据被过分炒作,维克托也表示担忧:“它被夸大了,好像一切都突然成为了大数据,大数据能解决所有问题,事实上人们并不了解它究竟是什么;一旦人们发现它不是万能的,就会感到泄气,然后大数据就被抛弃了。”在他看来,尽管大数据非常强大,但“人们需要明白它不是什么,我们不能将它过分夸大”。

对话维克托:数据保留与否应由用户决定

亚马逊、Google这些大公司已经积累了很多数据,但小公司、创业公司却没有多少数据,在大数据时代他们应该怎么做?

的确,这很有趣。很长时间以来,这些大公司的强大之处在于他们的服务器集群等基础设施。如今有了云计算,创业公司可以根据需要购买计算和存储能力,以解决基础设施方面的不足,但他们没有数据。数据是一些大公司独家拥有的。当然如果小公司选择了正确的领域切入,也能够获得数据。例如Inrix公司,他们开发导航软件,还能提供实时路况,告诉你哪里堵车。他们是怎么获得这些信息的呢?他们的基础导航服务是免费的,但如果你同意下载这个应用,它就会就会将你的行驶速度等信息传回后端,于是你就成为了这个平台的传感器。每天有数百万人使用Inrix,因此Inrix拥有数百万传感器,并获取了大量的数据。他们能记录在特定天气下人们的驾驶速度,并将这些信息告诉保险公司,或者告诉政府作为加强道路安全的参考。

通常企业只能通过自己搜集的数据进行预测,但他们的数据是有局限的。比如我在亚马逊上搜索了一本书,但最终通过其他渠道购买了,亚马逊并不知道,它仍会推荐相关的书,我却不再需要,如何解决这样的问题?

事实上目前已经有一些公司在分享自己的数据了,例如在网络广告领域。不过问题的关键在于你自己是否愿意你的数据被企业共享,如果你愿意让他们共享数据,你就能获得更好的推荐。如今在硅谷有一些创业公司正试图打造由个人、由消费者控制的信息共享平台。

相对来说用户可能会对大公司更加信任,更愿意把信息分享给他们,那么小公司如何让用户分享更多数据?

这不一定。可以换个角度来看,很多人不愿意把数据分享给Google或者Facebook,他们认为这些公司过于强大了;他们反倒更愿意把数据分享给小公司、创业公司。有意思的是,大数据能帮助大企业,也能帮助小企业,但对中型企业帮助不大。比如200-500人规模的企业,它们不够小,不像初创企业那么灵活,也不像Google那么强大,因而被挤压在中间,没有自己的优势。

未来企业针对大数据的分析是更多依靠云计算还是更多依靠企业内部的计算能力?

这完全取决于公司的规模、能力和他们所处的发展阶段,没有一个统一的答案。如今计算和存储能力都可以从外部获得,所以一家公司应该看看是使用内部的处理能力还是使用云计算更划算。

你认为在大数据时代,与隐私保护相关的法律应该有所调整吗?

是的。隐私权可以让个人对互联网、电子商务更信任;如果没有隐私权,我会对我在网上所做的事情很谨慎,因为一旦我将某件事告诉别人,我就可能把它收回来了,我无法控制它。所以我们需要隐私法,但隐私法也需要创新。如今欧洲的隐私法规定,企业最多只能将数据保存到首要目的完成的时候为止。这是在小数据时代制定的法律,在大数据时代已不再适用,因为数据的价值往往并非体现在其首要用途上,而是在其次要乃至第三位的用途上,可能是你收集数据时并不知道的用途。所以我们要做的是,让数据不再只能被保存到它的首要用途完成时为止,而是将决定权交给和数据相关的个人,让他们来决定是否删除数据。

在《删除》中你说应该对企业保存数据的时间有所限制,这是否会影响企业对于大数据的使用?

我的意思是,数据能保存多久应该由和数据相关的个人来决定。例如我如果希望我的数据在亚马逊上保持很长时间,我需要有这个权利和意愿;但我必须同时拥有删除这些数据的权利。亚马逊也会因此获益,因为如果我告诉他们“删除我8年前的购书记录,因为这和我如今的兴趣无关”,这样能将一些噪音排除,他们的推荐会更精确,我可能会买更多的书。

如果大数据能够准确预测未来,我们就可以在面临选择时做出最合理的选择,但很多时候我们的个性、我们生活中的快乐正是源自于一些非理性的选择,大数据是否会让我们失去这些?

只有当我们知道了真相是什么、当我们理性的时候,我们才能非理性。我们可以理性地去面对不合理的情况,这是我们主动选择不理性的,符合人类的习惯。例如数据告诉我抽烟不好,但我依然可以抽烟,这是非理性的,但这个非理性的决定是基于一个理性的选择,因为我知道了真相,所以我在做选择时是理性的。如果没有数据,我就不知道我什么时候是理性的,什么时候是非理性的;很多时候我认为我做了一个正确的决定,实际上却是一个错误的决定。所以在有了数据之后我们的生活依然可以很有趣。

你说遗忘是人类的天性,但事实上如今的人类也丧失了一些我们祖先所拥有的能力,那么人类在数字时代丧失遗忘的能力是否可以被看作是一种进化?

可以这么说,但进化应该是个缓慢的过程,尤其是要重组大脑。在很偶然的情况下,进化可能会使人类丧失某项能力,但这需要很多年才能完成。

(责任编辑:蒙遗善)

时间: 2024-09-19 19:07:14

大数据时代的记忆与遗忘的相关文章

大数据时代,一个记忆永生的燃情时代

罗兰 巴特是当代法国的先锋思想家,他在死前不久,为摄影者留下了一本经典著作<明室>. <明室>的缘起,是巴特追忆自己逝世不久的母亲. 在他整理母亲的遗物时,看到了一张母亲五岁时的照片.拿着照片,他第一次深切地感受到,原来母亲真的五岁过.在此之前,对他而言,母亲的五岁是不存在的. 巴特从此开始研究摄影.影像对于人类的意义. 记忆,将因大数据而永生 正像巴特一样,一个人无法了解自己母亲的生活,从我们懂事起,母亲已经步入中年,在我们的记忆中,母亲不曾年幼过,也不曾年轻过.即使幸运如巴特,

大数据时代的隐私保护:“被遗忘权”

个人有权要求删除指向个人信息的链接,这是网民夺回网络空间的一大步吗? 注:欧洲的最高法院5月裁定,在特定情况下,个人有权要求删除指向个人信息的链接.这是欧洲法院法官的一小步,却是网民夺回网络空间的一大步. 这首先意味着,个人信息在面对谷歌这类全球性的终身数据储存器时可以获得更好的保护.但判决的意义远远不止于此,判决还意味着,可以让谷歌和其他可供公众查询的大数据存储器--例如社交网络--为自己的行为负责-- 但事实上,就算是链接被移除了,那些侵犯隐私的资料仍会存在于原网站上.更为重要的一个影响是欧

大数据时代的“被遗忘权”之争

2012年1月,欧盟委员会发布了<个人数据保护指令修正案>,提出应当在隐私法中增加一项新的"被遗忘权",即权利人有权要求相关机构删除有关他们的个人数据,同时阻止个人数据的进一步传播."被遗忘权"的实现可溯源至一桩官司,一名叫Mario Costeja Gonzalez的西班牙男子在使用谷歌的搜索引擎检索自己的名字时,相关链接指向了1998年刊登于西班牙<先锋报>上的一篇文章,文章报道了这名男子未能缴纳社会保险,其住房遭到拍卖的事实.然而他认为

大数据时代下的个人信息安全

伴随着科技进步,互联网及移动互联网的快速发展,云计算大数据时代的到来,人们的生活正在被数字化,被记录,被跟踪,被传播,大量数据产生的背后隐藏着巨大的经济和政治利益.大数据犹如一把双刃剑,它给予我们社会及个人的利益是不可估量的,但同时其带来个人信息安全及隐私保护方面的问题也正成为社会关注的热点.今年两会期间,维护网络安全被首次写入政府工作报告.全国政协委员.联想集团董事长兼CEO杨元庆也在会议上呼吁"政府对个人信息安全立法,加强监管,并在整个社会中树立起诚信文化".大数据时代下维护个人安

大数据时代的小数字感

目前,"大数据"概念已经深入人心.很多人都喜欢谈论大数据.而我们利用数据,其中一个很重要的目的在于,用之为决策提供支持.因此,如何有效地呈现出大数据给出的结果,并把数据以"人话"说出来的,并让受众(很可能是你的领导)听得懂,就显得非常重要的! 想做到这一点,就得迎合人性,或者,更具体点说,要迎合人类大脑的喜好. 一部经典电影引出来的数字感 如果你看过巴里•莱文森导演的经典奥斯卡电影<雨人>(Rain Man),或许你不会忘记其中一个非常有意思的桥段:在餐

院士演讲:大数据时代的位置服务

 摘要: 中国工程院院士李德毅院士为大家带来<大数据时代的位置服务>的主题演讲,李德毅院士同时指出:大数据引发新理念,实践中的研究也许胜过研究中的实践,较多的数据也许胜过较好的算法  以"智慧城市与移动信息化"为主题的"第七届中国电子政务高峰论坛"于2013年6月23日在北京大学英杰交流中心阳光大厅隆重举办.本次论坛由工业和信息化部信息化推进司指导,北京大学信息化与信息管理研究中心主办,中央机构编制委员会办公室电子政务中心.北大CIO班教务办公室协办,C

马云:大数据时代,最重要的是做最好的自己

做个二十名的人其实蛮好的.大数据时代,最重要的是让每个人做最好的自己. 6月29日上午,天津"世界智能大会"现场,马云作了万字演讲,以下是马云演讲整理: 我今天不是为不同而不同,我觉得进入数据时代,一个很重要的事,每个人对每个问题的看法.角度.深度和广度必须是不一样的,只有不一样,你才是你.其实大数据时代,最重要的是让每个人做最好的自己. 我最近一直在讲,我说我念高中,从小到达,没有考试当过第一名,一个很重要的原因,我知道我当不了第一名.第二,当第一名太累.第三,第一名只有一个,一个班

安全:大数据时代的尖锐问题

上周五,央视对苹果搜集用户位置隐私问题提出质疑,将隐私与安全再次置于舆论的风口浪尖.在这个提到隐私泄露会让用户感到背后发凉,说到安全会让用户感到恐怖的年代,个人数据安全保护已经成为了一个尖锐的问题.随着大数据时代的到来,用户更多的数据被接入网络,安全问题因此更为尖锐. 在使用安卓系统的智能手机安装安全软件后,再启动任意一款APP,都会弹出会读取用户地理位置.电话簿等信息的提示.此前,我们依稀记得在脑海中留下深深印迹的3Q大战,根源同样是隐私这一个尖锐的话题. 从PC到手机,再到平板电脑,用户的隐

巅峰对话:畅想大数据时代的车联网与智能汽车

ZD至顶网CIO与应用频道 01月20日 北京消息:2016年1月20日,数据猿作为独家全程直播与专访媒体,受邀参加"全球大数据峰会 Global Big Data Conference 简称为 GBDC"本届大会由世界O2O组织.全球大数据联盟GBDC.全球移动游戏联盟GMGC.光合资本主办,中国互联网协会O2O工作组.中国汽车流通协会支持. GBDC全球大数据峰会在北京国家会议中心举办,本届大会规模逾3000人.大会从大数据改变政务管理方式.引领全球企业营销.智能交通综合服务.互联