美刊:大数据真有这么神奇吗?

美国《外交政策》杂志网站日前发表题为《对大数据的再思考——为什么机器的兴起并不完全像人们吹嘘的那样》的文章,作者为微软研究院首席研究员、麻省理工学院公民媒体中心客座教授凯特·克劳福德。

文章称,“大数据”是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法。这个术语一般用来描述对海量信息进行分析,从而发现规律、收集感悟和预言复杂问题答案的艺术与科学。它也许听起来有些乏味,但是从制止恐怖分子到消除贫穷,再到拯救地球,对于大数据的鼓吹者来说,没有什么问题是解决不了的。

维克托·梅耶-舍恩伯格和肯尼思·丘基尔在有着朴素书名的《大数据:一次将改变我们生活、工作和思考方式的革命》一书中欢呼道:“对社会的好处将是无穷无尽的,因为大数据在一定程度上将解决迫在眉睫的全球问题,如处理气候变化、根除疾病以及促进善政和经济发展等。”

文章称,只要有足够多的数据可以处理——不管是你的iPhone上的数据、杂货店购物状况、在线约会网站个人简介或者是整个国家的匿名健康记录,利用对这些原始数据进行解码的计算能力,人们可以获得数不胜数的洞察。甚至连奥巴马政府也已经赶上了这股潮流,并在5月9日向企业家、研究人员和公众“破天荒”地发布了大量“以前难以获取或难以管理的数据”。

然而,大数据真的完全像人们吹嘘的那样吗?人们能相信如此众多的1和0将能揭示人类行为的隐秘世界吗?

“有了足够的数据,数字就可以自己说话。”没门儿。

文章指出,大数据的鼓吹者希望人们相信,在一行行的代码和庞大数据库的背后存在着有关人类行为模式的客观、普遍的洞察,不管是消费者的支出规律、犯罪或恐怖主义行动、健康习惯,还是雇员的生产效率。但是许多大数据的传道者不愿正视其不足。数字无法自己说话,而数据集——不管它们具有什么样的规模——仍然是人类设计的产物。大数据的工具——例如ApacheHadoop软件框架——并不能使人们摆脱曲解、隔阂和错误的成见。当大数据试图反映人们所生活的社会化世界时,这些因素变得尤其重要,而人们却常常会傻乎乎地认为这些结果总是要比人为的意见来得客观些。偏见和盲区存在于大数据中,就像它们存在于个人的感觉和经验中一样。不过存在一种值得怀疑的信条,即认为数据总是越大越好,而相关性也等同于因果关系。

例如,社交媒体是大数据分析的一个普遍的信息源,那里无疑有许多信息可以挖掘。人们被告知,推特网的数据显示人们在离家越远的时候越快乐,而且在周四晚上最为沮丧。但是存在许多理由对这些数据的含义提出质疑。首先,人们从皮尤研究中心获悉,美国上网的成年人中只有16%使用推特网,因而他们绝对不是一个具有代表性的样本——与整体人口相比,他们中年轻人和城市人的比例偏多。此外,人们知道许多推特账号是被称作“机器人”程序的自动程序、虚假账号或是“半机器人”系统(即得到机器人程序辅助的人为控制账号)。最近的估计显示,可能存在多达2000万个虚假账号。因此就算人们想要踏入有关如何评估推特网用户情绪的方法论雷场之前,请先问一下这些情绪究竟是来自真人,还是来自自动化算法系统。

“大数据将使我们的城市变得更加智能和高效。”在一定程度上是的。

文章称,大数据可以提供帮助改善城市的宝贵见识,但是它对人们的帮助仅此而已。因为数据在生成或采集的过程并不都是平等的,大数据集存在“信号问题”——即某些民众和社区被忽略或未得到充分代表,这被称为数据黑暗地带或阴影区域。因此大数据在城市规划中的应用在很大程度上取决于市政官员对数据及其局限性的了解。

例如,波士顿的StreetBump应用程序是一个比较聪明的以低成本收集信息的途径。该程序从开车经过路面坑洼处的驾驶员的智能手机上收集数据。更多类似的应用正在出现。但是如果城市开始依靠仅来自智能手机用户的信息,那么这些市民只是一个自我选择样本——它必然导致拥有较少智能手机用户的社区的数据缺失,这样的社区人群通常包括了年老和不那么富有的市民。尽管波士顿的新城市机械办公室作出了多项努力来弥补这些潜在的数据缺陷,但不那么负责的公共官员可能会遗漏这些补救措施,最终会得到不均衡的数据,从而进一步加剧已有的社会不公。人们只要回顾一下曾经过高估计了年度流感发病率的2012年“谷歌流感趋势”,就可以认识到依赖有缺陷的大数据可能给公共服务及公共政策造成的影响。

在网上公开政府部门数据的“开放政府”计划——如Data.gov网站及“白宫开放政府计划”——也存在同样的情况。更多的数据未必会改善政府的任何功能,包括透明度和问责,除非存在可以使公众和公共机构保持接触的机制,更不用说促进政府解释数据并以足够的资源作出反应的能力。所有这些都非易事。事实上,人们身边还没有很多技能高超的数据科学家。各大学目前正在争相定义这一行当、制订教程和满足市场需求。

“大数据对不同的社会群体不会厚此薄彼。”几乎不是这样。

文章指出,对大数据所号称的客观性的另一个期待是对于少数群体的歧视将会减少,因为原始数据总是不含社会偏见的,这使得分析可以在大规模的水平上进行,从而避免基于群体的歧视。然而,由于大数据能够作出有关群体不同行为方式的论断,它们的使用通常恰恰就是为了实现这个目的——即把不同的个体归入不同的群体中。例如,最近有一篇论文指科学家听任自己的种族偏见影响有关基因组的大数据研究。

大数据有可能被用来搞价格歧视,从而引发严重的民权担忧。这种做法在历史上曾被称为“划红线”。最近,剑桥大学对脸谱网5.8万个“喜欢”标注进行的大数据研究被用来预测用户极其敏感的个人信息,如性取向、种族、宗教和政治观点、性格特征、智力水平、快乐与否、成瘾药物使用、父母婚姻状况、年龄及性别等。记者汤姆·福尔姆斯基这样评价该项研究:“此类容易获得的高度敏感信息可能会被雇主、房东、政府部门、教育机构及私营组织用来对个人实施歧视和惩罚。而人们没有任何抗争的手段。”

最后考虑一下在执法方面的影响。从华盛顿到特拉华州的纽卡斯尔县,警方正在求助于大数据的“预测性警事”模型,希望能够为悬案的侦破提供线索,甚至可以帮助预防未来的犯罪。不过,让警方把工作专注于大数据所发现的特定“热点”,存在着强化警方对声誉不佳的社会群体的怀疑以及使差别化执法成为制度的危险。正如某位警察局长撰文指出的,尽管预测性警事算法系统不考虑种族和性别等因素,但是如果没有对差别化影响的考虑,使用这种系统的实际结果可能“会导致警方与社区关系恶化,让公众产生司法程序缺失的感觉,引发种族歧视指控,并使警方的合法性受到威胁。”

“大数据是匿名的,因此它不会侵犯我们的隐私。”大错特错。

文章称,尽管许多大数据的提供者尽力消除以人类为对象的数据集中的个体身份,但身份重新被确认的风险仍然很大。蜂窝电话数据看起来也许相当匿名,但是最近对欧洲150万手机用户的数据集进行的研究表明,只需要4项参照因素就足以挨个确认其中95%的人员的身份。研究人员指出,人们在城市中走过的路径存在唯一性,而鉴于利用大量公共数据集可以推断很多信息,这使个人隐私成为“日益严重的担忧”。

但是大数据的隐私问题远远超出了常规的身份确认风险的范畴。目前被出售给分析公司的医疗数据有可能被用来追查到个人的身份。关于个性化医疗有很多谈论,人们的希望是将来可以针对个人研制药物和其他疗法,就好像这些药物和疗法是利用患者自己的DNA制作出来的。就提高医学的功效而言,这是个美妙的前景,但这本质上依赖于分子和基因水平上的个人身份确认,这种信息一旦被不当使用或泄露就会带来很大的风险。尽管像RunKeeper和Nike+等个人健康数据收集应用得到了迅速发展,但在实践中用大数据改善医疗服务仍然还只是一种愿望,而不是现实。

高度个人化的大数据集将成为黑客或泄露者觊觎的主要目标。维基揭密网一直处在近年几起最严重的大数据泄密事件的中心。正如从英国离岸金融业大规模数据泄露事件中看到的,与其他所有人一样,世界上最富有的1%人口的个人信息也极易遭到公开。

“大数据是科学的未来。”部分正确,但它还需要一些成长。

文章指出,大数据为科学提供了新的途径。人们只需看一下希格斯玻色子的发现,它是历史上最大规模网格计算项目的产物。在该项目中,欧洲核子研究中心利用Hadoop分布式文件系统对所有数据进行管理。但是除非人们认识到并着手解决大数据在反映人类生活方面的某些内在不足,否则可能会依据错误的成见作出重大的公共政策和商业决定。

为了解决这个问题,数据科学家正在开始与社会科学家协作。随着时间的推移,这将意味着找到把大数据策略和小数据研究相结合的新途径。这将远远超越广告业或市场营销业采用的做法,如中心小组或A/B测试(即向用户展示两个版本的设计或结果,以确定哪一个版本的效果更好)。确切地说,新的混合式方法将会询问人们做某些事情的原因,而不只是统计某件事情发生的频率。这意味着在信息检索和机器学习之外,还将利用社会学分析和关于人种学的深刻认识。

技术企业很早就意识到社会科学家可以帮助它们更加深刻地认识人们与其产品发生关系的方式和原因,如施乐公司研究中心就曾聘请了具有开拓精神的人类学家露西·萨奇曼。下一阶段将是进一步丰富计算机科学家、统计学家及众多门类的社会科学家之间的协作——不仅是为了检验各自的研究成果,而且还要以更加严格的态度提出截然不同的各类问题。

考虑到每天有大量关于人们的信息——包括脸谱网点击情况、全球定位系统(GPS)数据、医疗处方和Netflix预订队列——被收集起来,人们迟早要决定把这样的信息托付给什么人,以及用它们来实现什么样的目的。人们无法回避这样的事实,即数据绝不是中立的,它很难保持匿名。但是人们可以利用跨越不同领域的专业知识,从而更好地辨别偏见、缺陷和成见,正视隐私和公正将面临的新挑战。(参考消息网 曹卫国/编译)

(责任编辑:蒙遗善)

时间: 2024-07-30 22:28:36

美刊:大数据真有这么神奇吗?的相关文章

这几年是忽悠?大数据还没那么神奇

中介交易 SEO诊断 淘宝客 云主机 技术大厅 听到"大数据",你是否和大多数人一样,觉得多有耳闻又轮廓模糊?用美国数据可视化专家尼古拉斯·费尔顿 (Nicholas Felton)的话说,大数据就是超出传统数据管理工具处理能力的大规模.复杂的数据集合,衡量标准包括数据量.处理速度以及数据种类. 而大数据真像传说中的那么有用吗?在今年夏季达沃斯论坛上,一场名为"大数据还是大忽悠?"的辩论会如期登台,参会者热烈探讨大数据带来的机遇是否被过分炒作. 大数据有多有用 &q

教育大数据:真能"算"准你的未来?

教育大数据最近广受社会各界关注,尤其是高考填报志愿阶段和毕业季更是如此.目前从事教育大数据服务的相关机构众多,如何科学看待教育大数据在个性化学习.选择专业.理性就业等方面的作用?今天本报组织了部分专家和高校管理者分别从理论和实践层面进行探讨.--编者 最近,由北大光华管理学院毕业生戴威创办的ofo小黄车火了,这家创立于2014年的国内首家共享单车公司,首创无桩共享单车出行模式,致力于解决大学校园的出行和市民上下班的最后一公里问题,目前已完成D轮融资,估值巨大. 共享单车之所以能够成功,是基于移动

中美共建大数据创新研究中心

由贵阳市人民政府.工信部电子一所.美国加州大学伯克利分校合作共建的贵州伯克利大数据创新研究中心日前在贵阳揭牌. 据了解,贵州伯克利大数据创新研究中心将分两阶段建设.第一阶段,2016年9月份至2017年底,将重点完成"学龄儿童大数据分析研究实验室""老人大数据分析研究实验室"基础设施构建,同步开展区域数据资源评估及大数据人才培训等合作.在第二阶段,将重点在大数据民生服务.政府治理.产业应用等领域,从基础研究.技术开发.产业创新.成果孵化.教学培训等方面开展深度合作,

为啥大数据帮不了你找到女朋友

虐狗节刚刚过去,去年看过一篇文章,讲如何通过大数据找到你的另一半(见参考资料)!里面通过理性建模和精准定位找到合适伴侣,不过大数据真有这么神奇么?我就随便聊聊约会 APP 算法和现实中策略. 我们很多人抱怨现实中约会很难一下子找到宿命中的人,在线网站也让找到真爱的几率变大,操作又容易上手.据我所知,目前微信,陌陌,探探,世纪佳缘,match,tinder 很多这样的 "严肃" 交友(约会)的工具,他们号称采用大数据建立人物画像,采用 KNN 聚合,DNN 神经网络,帮你提升匹配率,找到

让我来告诉你,为什么大数据并不能帮你找到女朋友

2月14日是虐狗节,去年看过一篇文章,讲如何通过大数据找到你的另一半(见参考资料)!里面通过理性建模和精准定位找到合适伴侣,不过大数据真有这么神奇么?我就随便聊聊约会APP算法和现实中策略. 我们很多人抱怨现实中约会很难一下子找到宿命中的人,在线网站也让找到真爱的几率变大,操作又容易上手.据我所知,目前微信,陌陌,探探,世纪佳缘,match,tinder很多这样的"严肃"交友(约会)的工具,他们号称采用大数据建立人物画像,采用KNN聚合,DNN神经网络,帮你提升匹配率,找到人生幸福另一

大数据就是这么神奇!

大数据,顾名思义就是大量的数据,专业一点的解释叫做无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理.换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的"加工能力",通过"加工"实现数据的"增值". 互联网时代每天都有巨量的数据产生,信息技术也随之飞速发展.社会各个阶层都在默默收集这些数据,并通过分析与统计,筛选出

汪晓宇:如何破除中美大数据产业差距

文章讲的是汪晓宇:如何破除中美大数据产业差距,目前,大数据正掀起一场革命,"数据就是生产力"这个说法也正从"预言"变成现实. 无论是哪一个行业,都再也没有办法躲避这一浪潮.无论是分析传统的结构化数据,还是分析其他千奇百怪.内涵丰富的数据,比如来自社交媒体网站.各种客服渠道的海量非结构化信息,对企业而言,都将成为提高竞争力.盈利能力以及最重要的创新能力的关键. 但是,对于企业的CIO.CTO们来说,真正把数据转化为驱动企业发展的生产力,并非那么简单.在这一方面,中国在

有关大数据,看这一篇就够了!

科技的进步在很多的时候总会超出我们的想象,试想如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和,一个人产生的数据量超过现在全球数据量的总和,甚至你的宠物小狗产生的信息量都超过现在全球数据量的总和,世界会发生什么呢?那就取决于你的想象力了. 大数据的初步理解 似乎一夜之间,大数据(Big Data)变成一个IT行业中最时髦的词汇. 首先,大数据不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据客户的需求,Google实时从全球海量的数字资产(或数字垃圾)

大数据迷潮下的教育研究及其想象力

"大数据"似乎已经成为一种潮流,甚至是一种时尚.人们还没来得及知道它"是什么",就已经置身其中并迷狂不已,更别提仔细思考"为什么"了.所以,用"迷潮"来形容一点也不为过.产业.金融.物流等各界人士摩拳擦掌.跃跃欲试,热烈讨论这种新技术和新资源所带来的巨大福利,生怕落下新时代疾驰而过的"幸福列车".尚在努力向"小数据"靠拢的教育研究,似乎也按捺不住转型的冲动,宣称"传统数据研究无