我们正生活在一个个人最私密的信息被大企业踩在脚下的世界,技术可以把我们从中拯救出来吗?一个研究隐私推动技术发展的课题组表示,可以。
在不泄露个人隐私的情况下进行数据分析,这是我们的目标,其背后的核心技术,是能从加密数据中计算出有用成果的运算法则。正常情况下,加密数据原则上是完全随机的。传统上,如果任何信息能从这样的数据中提取出来,这将违背加密的意义。但新技术解放了这种绝对的随机性,令人可以检索数据,计算总和,或者在加密值基础上做更加复杂的计算。
格尔德瓦瑟(Goldwasser)称这样做的目旳是提取信息但不用看到本来的数据。比如,我们能不能确定一张照片中是否有任何人的面貌特征与数据库中的嫌疑人面貌匹配,同时不识别这张照片中其他无辜人员的面貌;我们能否从所有股票持有人的投资组合中发现金融动荡的证据,同时无需知道任何具体持有人购买了什么股票?
尼古拉.泽尔多维奇(Nickolai Zeldovich)介绍了他的CryptDB研究,谷歌使用它在BigQuery中进行加密检索。CryptDB确保任何值在同一领域任何地方出现时,都由同一个加密值代表,并且也支持某些聚合函数。这意味着,你可以检索一个领域里值的总和,并在无需查看任何单独值的情况下,得到正确的答案。你可以选择不同层次的保护,每一层对应不同程度的安全功能。
麻省理工学院教授维诺德.瓦库恩塔纳坦(Vinod Vaikuntanathan)介绍了同态加密法。同态加密可以从加密数据中制造一个加密结果,允许用户无需查看任何输入数据,就可以得到这样的结果。这是本次讲座中所介绍的几个前沿概念之一。虽然同态加密的概念1979年就曾被提出,但直到2009年,才有人想出如何将其付诸实际,而一些切实可行的实现(viable implementations),如HELib和HCrypt,直到近期才出现。
讲座中大部分发言者幻想的是“差别隐私保护”——源自隐私保护正式定义的非直观术语:通过查询所得的结果,不论是否是源数据,本质上都将是相同的。当差分隐私保护发挥作用后,就没有人能够再次识别你的记录,甚至都不知道你是否存在于数据库中,不管他们掌握了多少关于你的前期知识。另一个相关术语是“合成数据集”,是指提供被随机噪音搅乱的数据集的做法。这些数据集都经过周密的设计,令查询可以得到正确的答案(比如,“有多少成员是男性、吸烟者,但没有患上癌症?),但没有一行数据会被对应到某个真实的个人。
微软研究院著名科学家、差别隐私保护创始人之一辛西娅.德沃克(Cynthia Dwork),介绍了哈佛教授萨利尔.瓦德罕(Salil Vadhan)令之更充实的差别隐私保护概要。萨利尔指出,这样的数据库让隐私专家不必批准每一个数据外泄,因为,即使一个用户掌握了某个人的特别信息,他也无法据此再识别这个人了。
这种安全的数据库查询提供了另一层面的保护:检查人们提出的具体查询。瓦库恩塔纳坦指出,同态加密会辅以一个功能性认证服务器配合使用。这种认证服务器相当于接受用户查询的中介者。它将通过认证的方式,确保用户有权提交某一特殊查询,之后才在数据库中执行这一查询。
这些技术目前所面临的威胁是,以提交众多查询来瓦解保护隐私的可能,(执行操作的人)很可能在不同数据集中进行查询,令针对某一特定人的查询被分散开来。其他挑战还包括:
Ø 这些技术要依赖足够大的数据集来隐藏个人的差异。数据规模越大,掩盖个人差异所需引入的噪音也就越小。与此相反,小型数据集无法很好地保护隐私。
Ø 这些技术无法保护一个群体的权益。
Ø 这些技术旨在隐藏个人,所以无法被执法机关用于定位数据库中的具体人。
Ø 使用这些技术将需要对基于现行加密法而制定的法律法规,进行相应调整。
技术律师丹尼尔.维茨纳(Daniel Weitzner)在总结该课题小组的发言时,描述了推动可归责性信息的技术,即通过计算监控来判断如何使用数据,以及对数据的使用是否符合法律法规。
实现信息可归责所需步骤如下:
² 首先,一条法律或法规必须以某一程序可以解读的“政策语言”呈现。
² 该程序必须浏览数据使用相关操作记录,并对照上述政策语言检查每一条记录。
² 最后,该程序必须以用户理解得了的方式提供结果。
维茨纳指出,大部分用户希望做正确的事情,并遵守法律,因此上述信息应该协助他们做到这一点。
在这个方面的相关挑战包括,如何使一个政策语言足以阐明法律的要求,而又不会令计算变得太过复杂。该语言也必须允许不完全和不一致性出现,因为法律并不是总要提供完整的答案。
当天的最后一个座谈小组提出了数据挖掘中一些有趣、引人深思的模拟案例。有座谈组成员否定了限制数据收集的可能性,但呼吁使用这些数据要有更大透明性。我们应该知道哪些数据被收集了,以及谁收集了这些数据。一名小组成员提及了德博拉.埃斯特林(Deborah Estrin),她曾呼吁企业允许用户接触“关于自己的数据”。定期清除数据也能保护到我们,并且可行性很强,因为旧的数据在新环境中,通常毫无用处。
维茨纳寄希望于法律前沿。他指出,当奥巴马总统宣布审查备受批评的爱国者法案第215节时,他发出了一个微妙的信息--- 暗示第四修正案将得到更多关注。罗斯表示,有关元数据力量的发现,证明现在已经到了加强法律保护,迫使执法过程及法官,把元数据当成数据来对待的时刻。
隐私与尊严
在我看来,维茨纳通过为讨论设基本原则确立了自己会议组织者的角色。他认为,隐私意味着只让特定的人来处理数据,但其他人不具有该权利。
我认为这一声明是在对法庭关于“隐私的期望”(expectations of privacy)这个测试作出的糟糕判决提出抗议。根据美国法律原则,我们无法对政府获取我们的电子邮件信息或我们与谁通了电话的数据,提出任何限制。这就像有人得知一个女人受到袭击后表示,“她着装的方式(有问题),这是她自找的。”我承认,开放数据可以提供精彩而革新的发现和应用。我们不想生活在一个人们每次使用数据都要申请获得批准的国度,但我们的确需要为公众提供途径,表达它们对自身数据安全的担忧。
数据要是能有像Kickstarter或Indiegogo那样的平台,一定会很棒。在这个平台上企业寻求的不是资金,而是我们的数据。不过,通过这种方式,企业就无法像之前通过浏览推特或购买数据集那样,想签多少用户就签多少用户。看来数据使用已经无可避免地成为政策要解决的问题了,无论由谁来确定或管理它。也许后续的研讨会能进一步拓展讨论的范围,帮助我们为未来十年的数据发展奠定基础。
原文发布时间为:2014-05-16