针对互联网上的隐私问题,来自普林斯顿大学和斯坦福大学的研究人员发布的一项研究结果显示:只要将你的匿名网页浏览历史记录和你的社交媒体资料联系起来,就可以识别你在网上的一举一动。
“我们发现浏览器的历史记录可以和社交媒体资料相关联,像是 Twitter, Facebook 或者 Reddit 等账号。” 研究人员在一份计划在 4 月份的澳大利亚珀斯万维网会议发表的文章上写道。
普林斯顿计算机科学助理教授、该研究文章的作者之一 Arvind Narayanan 说:“我们已经知道有一些公司会追踪用户的浏览行为,并且知道用户的身份,例如 Google、 Facebook。”但是这些公司公开了他们对注册用户的追踪行为。这项新的研究表明,任何有能力搞到你的浏览记录的人 —— 显然,有海量的公司和组织可以做到这一点 —— 都可以通过分析你的社交媒体账号上的公开信息来确定你的身份。
“用户们可能认为他们在访问一些新闻网站或者养生网站时是匿名的,但是我们的研究又找出了这些公司通过其他手段确定用户身份的可能性。” Narayanan 称。
Narayanan 指出,如今美国联邦通信委员已经通过一项新的隐私规则,允许互联网服务提供者储存和使用一些用户的信息,当然这些信息需要是与用户身份 “无关联” 的。
研究人员写道 “我们的研究表明,匿名的浏览历史似乎也不满足这个条件。”
文章中写道,在线广告公司通过在网页上嵌入追踪程序来建立用户的浏览记录档案。一些广告商会将用户的身份添加到档案信息中,但是绝大多数广告商都承诺这些网页浏览信息与任何人的身份信息都无关。于是研究人员想知道,即使这些信息不包括身份信息,那我们是否能根据这些来推定出用户的身份呢。
研究人员决定保守地公开他们自己的一些信息,在那些包含外部链接的社交媒体资料上格外谨慎。之后他们写了一个名为 “feeds” 的算法,用来将他们的匿名网站浏览记录和社交媒体账号进行对比。
“每个人的浏览记录都是独一无二的,并且都蕴含着暴露他们身份的蛛丝马迹。” 斯坦福大学助理教授 Sharad Goel 说道。
这个叫 “feeds” 的程序可以在不同的数据中找出规律,通过这些规律来推定用户的身份。研究人员称这种方法并不完美,需要一个能提供大量外部链接社交媒体。然而,他们说 “只要浏览记录中有 30 条源自 Twitter 的链接,我们推断出对应的 Twitter 资料成功率就有 50% 以上。”
在由 374 名志愿者提供它们的浏览记录进行的试验中,研究人员取得了更大的成功。通过比对网页浏览记录和数亿的社交媒体资料,研究人员能够确定 70% 用户的身份信息。(试验中初始的参与者还要更多,但是由于处理信息时的技术问题,一些参与者被剔除了。)
伦敦帝国理工学院助理教授 Yves-Alexandre de Montjoye 称,该研究表明 “‘去匿名程序’的构建如此简单,你只要知道怎么写代码就行了。多年海量的证据表明数据匿名化具有很大的局限性,这项研究也让我们重新反思大数据时代下的隐私和数据保护问题。”