本文讲的是数据库配置问题导致近两亿选举投票记录泄露,海量数据泄露,数据库所有权无人认领。
研究人员克里斯·维克里(Chris Vickery)发现,某配置错误的数据库导致1.91亿条投票记录被泄露。然而,该数据库似乎不存在所有者,它本来就是公开的,任何发现它的人都能得到这些数据。
数据库里有什么?
维克里在 Databreaches.net 上分享了他的发现。双方试图通过数据库的位置和细节找到其所有者,但并没有效果,所以他们找到了 《CSO》 杂志专栏作家、自由程序员史蒂夫·拉根(Steve Ragan)寻求帮助。
拉根从数据库本身入手,解决这个问题。与此同时,维克里给他发送了来自数据库的条目,相关的投票记录和个人信息都非常准确。维克里也在数据库里找到了自己的投票记录,史蒂夫问他作何感想。
维克里说:“我的第一反应是不敢相信。”
“我要查证一下,所以很快定位到了德克萨斯州的类目,然后搜索了自己的名字。我对结果感觉很愤怒。一个奇怪的、在互联网上随机找到的数据库里居然堂而皇之地列着指向我的信息。拥有这1.91亿万条记录的人怎么会如此粗心大意?”
数据库中包含选民的全名、家庭地址、邮寄地址、选民身份号、州选民身份号、性别、出生日期、注册日期、电话号码、是否接受打来的选举电话、政治关系、自2000年以来的详细投票历史。此外,数据库的字段里还包含选民的预测分数。
大多数的选民信息都是公共记录,而只有几个州的法律对此有所限制。比如在俄亥俄州,选民信息是张贴在网络上的。其它的州给找到选民信息增加了成本,但它们并不是无法获取的。基本上而言,选民数据仅限非商业性使用。
不论如何,每个州对此类数据都还是有控制条款的。
需要指出的是,阿拉斯加、阿肯色、科罗拉多州对选民信息没有任何限制。
在加州,选民信息只能被用于政治目的,不能被提供给非美国公民。南达科他州有一条和本文主题紧密相关的法律:
来自州选民注册数据库的选民注册信息不能被用于或销售于任何商业目的,禁止将其公开置于互联网上。
维克里发现的数据库内不包含个人社保账号或者驾照好吗,但这个数据集合已经够大了。
同样,大多数州和数据经纪人都要在给出选民数据之前确认对方不会将其用于商业目的,也不会用它们做任何违法州法律的事情。
由于维克里发现的数据库可以被互联网上的任何人访问到,这些数据实际上已经被置于不受限制的境地。
拉根将自己的个人投票数据发给了几位选举领域的线人和专家。其中一位解释了这个数据库存在的原因和它在选举期的作用。
Shallman Communications 公司的人口政治顾问马克伦·齐尔伯(Maclen Zilber)称:“这份文件里包括所有选民基本档案中的信息:地址、出生日期、全部选举记录、一些基本的人口统计信息。竞选团队使用这些数据让宣传更有效率:确保宣传对象最后真会去投票。这其中的大多数数据都属于公开记录,但条件是只能用于竞选目的。”
“一些主要的投票数据公司会给每位选民打分:他们是否最后会出门投上一票、是否支持特定政党,甚至一些更有利可图的问题,比如他们对特定政治议题的态度如何。数据库中出现这类预测评分表明,它属于某家投票数据公司,而不是政府。”
谁是数据库的所有者?
拉根的团队联系了几家政治数据公司,以确定该数据库的所有者。Databreaches.net 的负责人也做了同样的事情。然而,这些努力都失败了。
拉根团队联系到的公司如下:Catalist 、Political Data 、Aristotle 、 L2 Political 、NGP VAN 。 Databreaches.net 则联系了 Nation Builder 公司,对方表示托管该数据库的 IP 地址不属于本公司,也并不属于他们托管的客户。
拉根团队联系的每家公司都否认数据库属于自家。比如 NGP VAN 公司,该公司使用的都是 Windows 数据库,这让其自然排除了嫌疑,因为泄露的数据库基于 Linux 。
团队之后联系了另一家政治数据公司 i360 ,结果也不成功。此外,他们还就此事联系了 DSPolitical 、 TargetSmart 、 Data Trust 公司。
目前,拉根团队已经收到了 TargetSmart 、 Salted Hash 、 Data Trust 公司的回复,数据库并不属于他们,他们也并不使用该 IP 地址。如果收到 DSPolitical 公司的回复,团队将在网上更新状态。
数据库的编译方式?
上周,除了确定数据库的所有者之外,拉根团队也研究了其编译方式。这样,如果数据库的所有者无法确定,公众至少可以知道数据的来源,供应商也可以与客户沟通,请他们注意这个问题。
事实上,这个问题研究起来有些复杂,因为发生了希拉里“数据门”事件。拉根团队联系到的很多人都认为两起事件之间有一定的联系。
然而,本故事和希拉里竞选“数据门”事件无关。
NGP VAN 公司发生的“数据门”事件起源于软件配置错误,它导致桑德斯的竞选团队能够看到希拉里的选民评分。只有竞选公司给选民的打分泄露出来,选民的个人信息并未遭到泄露。
事实上,桑德斯和希拉里的竞选团队共享的正是同一个 DNC 选民数据库。其中一方上传了信息,“数据门”故障导致另一方能够看到这些数据。
维克里发现的这起事件更严重,因为数据库泄露的并不只是评分,而是1.91亿注册选民的完整信息。问题在于,似乎没人在乎这件事,也没有人宣称认领数据库所有权。
许多州和县选举办公室在给出选民数据时是收费的。有些时候,选民数据是免费的,但如果涉及到收费,总花费可能非常高昂。比如,2012年,在阿拉巴马州拿到300万份选民注册记录的费用高达2万9千美金。这样的开销在竞选预算里真的不算一笔小钱,因此竞选管理者会转向各种政治数据公司,以更低的成本购买数据。
竞选团队的其中一个选择是 Nation Builder 公司。当维克里第一次发现该选民数据库时,他和 Databreaches.net 的负责人认为 Nation Builder 公司可能是这些数据的来源。然而该公司否认了这一点。他们还表示,相关 IP 不属于他们托管的客户。
电子地图和大数据
泄露的数据是否真的来自 Nation Builder 公司?考虑到数据库的组织模式和文件格式,答案是肯定的。维克里给出的选民个人数据显然来自 Nation Builder 公司的数据集合。
在美国,很少有厂商会存储全国选民的档案。对少数几家会这样做的公司而言,每个选民的文档都包含一个签名组件,和数字指纹类似,它是与负责管理的供应商相对应的。
要分辨选民数据的来源,可以比较其文件结构:供应商对各个区域的命名、各个区域的出现顺序。另一个明显的区别因素是选民身份号:它是供应商给每个美国选民分配的代码。
每个供应商处理选民文件的方式都很独特,它们给选民分配代码的方式也有所不同。
在拉根的选民记录中,选民身份号和区域的命名方式直接将泄露数据的来源指向了 Nation Builder 公司。如果将拉根的记录和 Nation Builder 的其它文件结构比对,就会发现在nbec_precinct_code中存在明显的相似情况。
这个代码只属于 Nation Builder 公司。它是 Nation Builder Election Center Precinct Code 的简写。拉根的这个代码是 18097-Marion-Center ,它代表着俄亥俄州的马里恩县,城中心。
至于选民身份号,拉根的这个号码由数字、字母和破折号组成:058a902b-4e1d-4989-8fdb-4976f48fbfb6。
在拉根联系到的选举公司中,很多公司都很快得出结论称 Nation Builder 是数据的泄露源头,其中一人表示,任何对 Nation Builder 公司有所了解的人都显然能够给出这样的判断。
National Builder 是始作俑者吗?并非如此
尽管 National Builder 否认与 IP 地址及数据库泄露事件有所联系,但他们完全有可能知道谁开发了它们。不过,需要大量核对纪录才能确认这一点。这是因为,希望访问 National Builder Election Center 的开发者或者竞选团队需要注册自己的联系方式,比如姓名和电子邮件地址。
然而,Nation Builder 没有识别其客户的义务,一旦给出数据,他们不能控制接下来发生的事情。简而言之,尽管该公司提供了这些泄露的数据,数据泄露事件却并不是他们的责任。
需要说明的是,应该追究的是开发并错误配置了数据库的人,而不是 Nation Builder 。目前该数据库的开发者还不能确定。
此外,没有方法能够确定数据库已经被放到网上多久。对很多美国公民而言,这可能是个很大的问题。
根据选民数量和其它证据可以大致判断数据库的更新日期应当是2014年二月至三月间,但除非联系到该数据库的拥有人,无法彻底确定这一时间。
数据遭到滥用的可能性值得关注。对那些不经常分享个人信息的人而言,数据曝光显然是个问题。
还有其它长期问题。数据库里的政治关系、出生日期等个人数据可以被用于进行针对性的网络钓鱼。
大多数人了解由财务纪录驱动的钓鱼攻击,或者那些针对零售行业和物流行业的攻击。然而基于政治的钓鱼攻击成功率可能会更高,特别是在2016大选期间。
维克里和 Databreaches.net 负责人已经和联邦执法机构联络,请求其帮忙找到数据库的拥有者,或者将数据从公众视野中删除。此外,他们还联络了加利福尼亚州检查长。
截止至发文时,该数据库仍旧处于活跃状态。