大数据和隐私:政府必须选择!(下)

我们正生活在一个个人最私密的信息被大企业踩在脚下的世界,技术可以把我们从中拯救出来吗?一个研究隐私推动技术发展的课题组表示,可以。

在不泄露个人隐私的情况下进行数据分析,这是我们的目标,其背后的核心技术,是能从加密数据中计算出有用成果的运算法则。正常情况下,加密数据原则上是完全随机的。传统上,如果任何信息能从这样的数据中提取出来,这将违背加密的意义。但新技术解放了这种绝对的随机性,令人可以检索数据,计算总和,或者在加密值基础上做更加复杂的计算。

格尔德瓦瑟(Goldwasser)称这样做的目旳是提取信息但不用看到本来的数据。比如,我们能不能确定一张照片中是否有任何人的面貌特征与数据库中的嫌疑人面貌匹配,同时不识别这张照片中其他无辜人员的面貌;我们能否从所有股票持有人的投资组合中发现金融动荡的证据,同时无需知道任何具体持有人购买了什么股票?

尼古拉.泽尔多维奇(Nickolai Zeldovich)介绍了他的CryptDB研究,谷歌使用它在BigQuery中进行加密检索。CryptDB确保任何值在同一领域任何地方出现时,都由同一个加密值代表,并且也支持某些聚合函数。这意味着,你可以检索一个领域里值的总和,并在无需查看任何单独值的情况下,得到正确的答案。你可以选择不同层次的保护,每一层对应不同程度的安全功能。

麻省理工学院教授维诺德.瓦库恩塔纳坦(Vinod Vaikuntanathan)介绍了同态加密法。同态加密可以从加密数据中制造一个加密结果,允许用户无需查看任何输入数据,就可以得到这样的结果。这是本次讲座中所介绍的几个前沿概念之一。虽然同态加密的概念1979年就曾被提出,但直到2009年,才有人想出如何将其付诸实际,而一些切实可行的实现(viable implementations),如HELib和HCrypt,直到近期才出现。

讲座中大部分发言者幻想的是“差别隐私保护”——源自隐私保护正式定义的非直观术语:通过查询所得的结果,不论是否是源数据,本质上都将是相同的。当差分隐私保护发挥作用后,就没有人能够再次识别你的记录,甚至都不知道你是否存在于数据库中,不管他们掌握了多少关于你的前期知识。另一个相关术语是“合成数据集”,是指提供被随机噪音搅乱的数据集的做法。这些数据集都经过周密的设计,令查询可以得到正确的答案(比如,“有多少成员是男性、吸烟者,但没有患上癌症?),但没有一行数据会被对应到某个真实的个人。

微软研究院著名科学家、差别隐私保护创始人之一辛西娅.德沃克(Cynthia Dwork),介绍了哈佛教授萨利尔.瓦德罕(Salil Vadhan)令之更充实的差别隐私保护概要。萨利尔指出,这样的数据库让隐私专家不必批准每一个数据外泄,因为,即使一个用户掌握了某个人的特别信息,他也无法据此再识别这个人了。

这种安全的数据库查询提供了另一层面的保护:检查人们提出的具体查询。瓦库恩塔纳坦指出,同态加密会辅以一个功能性认证服务器配合使用。这种认证服务器相当于接受用户查询的中介者。它将通过认证的方式,确保用户有权提交某一特殊查询,之后才在数据库中执行这一查询。

这些技术目前所面临的威胁是,以提交众多查询来瓦解保护隐私的可能,(执行操作的人)很可能在不同数据集中进行查询,令针对某一特定人的查询被分散开来。其他挑战还包括:

Ø 这些技术要依赖足够大的数据集来隐藏个人的差异。数据规模越大,掩盖个人差异所需引入的噪音也就越小。与此相反,小型数据集无法很好地保护隐私。

Ø 这些技术无法保护一个群体的权益。

Ø 这些技术旨在隐藏个人,所以无法被执法机关用于定位数据库中的具体人。

Ø 使用这些技术将需要对基于现行加密法而制定的法律法规,进行相应调整。

技术律师丹尼尔.维茨纳(Daniel Weitzner)在总结该课题小组的发言时,描述了推动可归责性信息的技术,即通过计算监控来判断如何使用数据,以及对数据的使用是否符合法律法规。

实现信息可归责所需步骤如下:

² 首先,一条法律或法规必须以某一程序可以解读的“政策语言”呈现。

² 该程序必须浏览数据使用相关操作记录,并对照上述政策语言检查每一条记录。

² 最后,该程序必须以用户理解得了的方式提供结果。

维茨纳指出,大部分用户希望做正确的事情,并遵守法律,因此上述信息应该协助他们做到这一点。

在这个方面的相关挑战包括,如何使一个政策语言足以阐明法律的要求,而又不会令计算变得太过复杂。该语言也必须允许不完全和不一致性出现,因为法律并不是总要提供完整的答案。

当天的最后一个座谈小组提出了数据挖掘中一些有趣、引人深思的模拟案例。有座谈组成员否定了限制数据收集的可能性,但呼吁使用这些数据要有更大透明性。我们应该知道哪些数据被收集了,以及谁收集了这些数据。一名小组成员提及了德博拉.埃斯特林(Deborah Estrin),她曾呼吁企业允许用户接触“关于自己的数据”。定期清除数据也能保护到我们,并且可行性很强,因为旧的数据在新环境中,通常毫无用处。

维茨纳寄希望于法律前沿。他指出,当奥巴马总统宣布审查备受批评的爱国者法案第215节时,他发出了一个微妙的信息--- 暗示第四修正案将得到更多关注。罗斯表示,有关元数据力量的发现,证明现在已经到了加强法律保护,迫使执法过程及法官,把元数据当成数据来对待的时刻。

隐私与尊严

在我看来,维茨纳通过为讨论设基本原则确立了自己会议组织者的角色。他认为,隐私意味着只让特定的人来处理数据,但其他人不具有该权利。

我认为这一声明是在对法庭关于“隐私的期望”(expectations of privacy)这个测试作出的糟糕判决提出抗议。根据美国法律原则,我们无法对政府获取我们的电子邮件信息或我们与谁通了电话的数据,提出任何限制。这就像有人得知一个女人受到袭击后表示,“她着装的方式(有问题),这是她自找的。”我承认,开放数据可以提供精彩而革新的发现和应用。我们不想生活在一个人们每次使用数据都要申请获得批准的国度,但我们的确需要为公众提供途径,表达它们对自身数据安全的担忧。

数据要是能有像Kickstarter或Indiegogo那样的平台,一定会很棒。在这个平台上企业寻求的不是资金,而是我们的数据。不过,通过这种方式,企业就无法像之前通过浏览推特或购买数据集那样,想签多少用户就签多少用户。看来数据使用已经无可避免地成为政策要解决的问题了,无论由谁来确定或管理它。也许后续的研讨会能进一步拓展讨论的范围,帮助我们为未来十年的数据发展奠定基础。

原文发布时间为:2014-05-16

时间: 2024-10-15 19:32:24

大数据和隐私:政府必须选择!(下)的相关文章

大数据时代的政府改革与转型

编者按:从户籍制度改革,到不动产登记制度改革,再到征信体系建设,近期加速推进的诸多改革,都对数据库建设提出了更高的目标要求,一些改革更是以大数据为基础.大数据已经成为政府改革和转型的技术支撑. 大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知.获取.管理和服务的数据集合.近年来,随着云计算等新型数据处理技术不断成熟,大数据也不断被应用到政府日常管理和为民服务中,并成为推动政府政务公开.完善服务.依法行政的重要力量. 但同时,部门利益割据造成的信息孤岛,也成为大数据进一步发展的

大数据时代的政府治理与监管

2013年以来,国务院以行政审批制度改革为抓手,加快推进政府职能转变.第一阶段是"简政放权",削减政府部门"管的太多.管的太细"的审批权.第二阶段是"放管结合",通过一系列的机制设计与落实,让政府部门工作重心从"事前审批"转到"事中事后监管"上来,更加注重依法监管.科学监管,促进市场公平.释放市场活力.2015年7月,国务院办公厅印发了<关于推广随机抽查规范事中事后监管的通知>,全力推进&quo

我知道你是“谁”——大数据拷问隐私

[大数据100分]我知道你是"谁"--大数据拷问隐私 主讲嘉宾:王绪刚 主持人:中关村大数据产业联盟 副秘书长 陈新河 承办:中关村大数据产业联盟 嘉宾介绍: 王绪刚:时趣科技首席科学家,负责公司数据战略,数据研发以及大客户软件部门.是国内早期的大数据研究与实践者.曾提出了交互式机器学习算法框架,利用机器学习来解决稀疏性行为数据的预测问题.并主导开发了当当网个性化推荐引擎,中国移动社区推荐与搜索平台,智联招聘推荐引擎与暴风影音视频智能推荐系统等一系列大数据项目. 以下为分享实景全文:

人民时评:大数据时代,政府要领跑

广泛采集数据.综合处理数据,实现公共服务的技术创新.管理创新和模式创新,这是大数据时代的必然选择 点开上海市政府数据服务网,http://www.aliyun.com/zixun/aggregation/5683.html">房地产开发企业信息.社保卡受理网点.派出所基本情况--有六大领域数据都可下载使用.近日,上海在此前9家单位试点的基础上,要求当地所有政府部门都要在年内向公众提供数据产品浏览.查询和下载等服务(相关报道见昨日本报第16版).大数据时代,政府如何提升服务能力与治理水平?这

关于大数据和隐私的“辩论”才刚刚开始

多年来,隐私和大数据之间的关系已经变得非常敏感,随着新兴技术产生大量数据,关于两者之间"辩论"才刚刚开始. 随着日常生活中数据生成设备的数量不断增长,因此关于应将数据公开,以及何时应将个人数据视为私有的争论也在不断增加. SAP国家安全服务公司总裁兼首席执行官Mark Testoni说,"我们拥有所有信息,而且大部分情况下,我们还没有真正决定什么是私有或公有领域." "数据公开可以带来很多便利,但同时也存在一些安全问题,"Testoni说,&qu

大数据时代 隐私注定“裸奔”?

多年来,隐私和大数据之间的关系已经变得非常敏感,随着新兴技术产生大量数据,关于两者之间"辩论"才刚刚开始. 随着日常生活中数据生成设备的数量不断增长,因此关于应将数据公开,以及何时应将个人数据视为私有的争论也在不断增加. SAP国家安全服务公司总裁兼首席执行官Mark Testoni说,"我们拥有所有信息,而且大部分情况下,我们还没有真正决定什么是私有或公有领域." "数据公开可以带来很多便利,但同时也存在一些安全问题,"Testoni说,&qu

鱼与熊掌不可兼得?论大数据与隐私

现在很多公司都越来越热衷于大数据,这是信息时代发展的必然趋势.但是随着互联网让人们越来越方便,互联网凸显出来的弱点也越来越明显,也就是人们越来越关心的隐私上的问题了.熊掌和鱼补课兼得,大数据与隐私应该当如何? 棱镜门事件后,多数人对于隐私泄露都心有余悸,不久前苹果又承认其手机可以不经用户同意收集用户信息,让人尤其没有安全感.在这种情况下,无论是企业还是个人消费者都迫切需要创建一个企业级大数据安全平台,来保护其隐私安全. 事实上,在互联网领域很多Web公司都通过搜索cookies等手段来分析手机用

数据分析后遗症:大数据互联网隐私之殇

本文讲的是数据分析后遗症:大数据互联网隐私之殇,大数据已经成为预测社会与经济走向方面的绝对利器--然而其极高的信息使用量与综合分析流程恐怕会彻底抹杀如今我们最为看重的隐私权. 随着企业间竞争日趋白热化,对数据的攫取与分析之强烈已经达到令人震惊的地步.迅速成长的数据收集业务开始以互联网用户的日常活动作为结论的支持材料,但这种无孔不入的疯狂探求令我们最个人化的行为都暴露在他人面前. 除了在宏观上构建社交模式及经济走向,大数据还能根据个人用户不经意间生成的原始数据描绘出对方生活的状态. Target公

大数据工具指南:从选择到应用

通过部署和使用大数据分析工具,分析流程可以帮助公司提高运营效率,产生新的利润,获得竞争优势.企业可选择的数据分析应用程序有很多.比如描述性分析善于描述已发生的事情,揭示因果关系.描述性分析主要输出查询.报表和历史数据可视化. 另外,更复杂的预测模型和规范模型可以帮助企业获得商机,做出影响市场战略,提升客户体验,避免设备故障的决定.在预测分析中,历史数据集有了预测 分析,历史数据集可用于分析未来的状况和行为,规范分析承接预测分析,建议决策者采取某种行为.在很多情况下,先进的分析程序由于处理和数据存

微博掘金旅游大数据,商业化的好选择?

文章讲的是微博掘金旅游大数据,商业化的好选择,当年微博接受阿里巴巴战略投资后,"微博要卖广告了"的论断不胫而走,随后信息流广告的成功的确证明微博在"卖广告".但微博毕竟是中国最大的社交媒体,而阿里也不仅仅只是淘宝,于是拓展更多的商业化可能成为必然,最近微博与阿里旅行开启战略合作,这标志着微博开始借助外力释放其平台上垂直内容的价值,我称之为微博商业的2.0. 在互联网众多领域中,社交网络是个神奇的存在,用户的网状关系使其具备成为平台的可能性,但较远的商业化链条成为其规