《位置大数据隐私管理》—— 2.2 位置同质性攻击

2.2 位置同质性攻击

下面将在2.2节和2.3节分别介绍位置同质性攻击模型和查询同质性攻击模型,这两个模型被统称为同质性攻击。在建立攻击模型时,在背景知识方面,前者考虑的是位置语义,而后者基于查询语义。

2.2.1 攻击模型

对于采用空间模糊化方法生成的匿名集合,如果匿名集用户的匿名区域仅覆盖一个敏感位置(如医院),通过公开的信息如医院发布的就诊记录,攻击者可以以较高的概率确定目标对象敏感信息(如曾去医院就诊),攻击目标的隐私信息泄露(如健康状况),此攻击为位置同质性攻击。Hu等人[56]首次提出当匿名位置与外部公开信息相结合时,将产生用户个人敏感信息泄露的问题,文献[46]对匿名处理结果进一步优化。

图2-9以示例的方式给出了一个位置同质性攻击的场景[52]。Acme是一个有名的保险公司。客户信息对保险公司来讲属于商业机密,不可公开。Acme的员工需要频繁地造访客户,经常使用LBS服务(如Google maps)规划行程。一个恶意攻击者(如LBS)通过观察获得频繁从Acme发出的LBS查询,则有可能推断并重建出Acme的客户列表。当然,为了避免此种情况的发生,可以采用2.1.2节介绍的位置k-匿名模型,如图2-9所示。为用户u生成的匿名区域满足位置3-匿名。由于Acme公司的员工位置临近,不幸的是在同一匿名区域的用户均是Acme的员工,即位置语义相同(语义位置的定义参见2.2.2节定义2-5)。可见,仅仅满足位置k-匿名模型的匿名集合存在位置同质性攻击的风险。
最初的研究工作仅考虑物理(静态)位置的个数,对位置同质性攻击进行了形式化描述。文献[41]基于位置语义、敏感性和POI在地图上的分布状况,给出了基于位置语义的敏感位置同质性攻击模型的形式化定义。文献[41]假设空间中位置分布的概率密度函数pdf已知。 表示一个位置在区域r中的概率。一般情况下,位置不是均匀分布的。如果P(r)=0,则区域r不可达,否则r可达。根据用户隐私需求,从敏感度的角度,位置类型(记为FT)可分为敏感类型FTs和非敏感类型FTns两类, 。将敏感位置扩展到区域中:区域r是敏感的,如果r与一个区域Cov(ft)相交,该区域包含敏感类型为ft的位置,形式化地表示为:

其中Cov(ft)表示包含敏感位置语义ft的区域。
文献[41]中用“敏感度”度量区域r的隐秘情况。一个区域的敏感度取决于该区域覆盖的位置和位置分布概率密度函数pdf。用Psens(ft, r)表示区域r相对于位置类型ft的敏感度。Psens(ft, r)即在区域r中用户位于敏感类型为ft区域中的概率,形式化地表示为

公式(2-1)表达的语义即区域r与位置类型为ft的区域的重叠程度。无论何种位置类型,不可达区域的敏感度均为0。如果某区域被敏感位置完全覆盖,则Psens(ft, r)=1。
下面通过一个例子解释上述概念。设Hospital是一种敏感类型,其有两个实例H1和H2。如图2-10所示,H1与区域r部分重叠,H2被完全覆盖在r中。此外,区域r中包含一个湖泊L。假设L不可达,用户在L以外的区域出现的概率相同,即均匀分布。,其中Area()表示区域的面积。区域r相对于Hospital的敏感度为:

分子表示H1和H2在区域r中的面积,分母表示r中除去L之后的面积。

基于位置语义的敏感位置同质性攻击:用户针对每一种类型ft定义一个可接受的最小敏感度阈值τ,如果满足 ,则说明区域r是安全的,否则称产生了敏感位置同质性攻击。
再举一个例子:用户设定敏感位置类型FTs={Hospital, Religious Building},针对每一种类型的敏感度阈值T={(Hospital, 0.4), (Religious Building, 0.1)}。如果某用户计算Psens(Hospital, r)的值大于0.4,则说明发生了敏感位置同质性攻击。

2.2.2 位置l-差异性模型

2007年,Ling Liu借鉴数据发布隐私处理中的l-差异性模型的思想,提出了位置l-差异性模型[38],以防止位置同质性攻击。位置l-差异性模型保证在一个匿名区域中的用户除满足位置k-匿名模型外,匿名框中需要包含l个不同的物理/实际位置。该模型降低了k个或更多的用户同时位于一个敏感位置的风险。k-匿名模型保证了一个用户不能从k-1个其他用户中识别出来。位置l-差异性模型则保证用户的位置不会从l个物理位置中识别出来(如教堂、医院、办公室等)。图2-11显示了一个以四分树划分法获得的匿名区域,其中匿名区域中的用户同时满足位置k-匿名(k=3)和位置l-差异性(l=2),圆点代表运动对象,三角形代表不同的物理位置。
很明显,参考文献[38]最初提出的位置l-差异性模型忽略了位置类型和用户的位置语义。直观上来讲,用户位置带有语义信息,如用户现在位于商场,则说明用户很可能正在购物;用户身处女子学校,则该用户有很大的概率是一名女性学生。在文献[52]中对位置语义进行了形式化定义。

语义位置:语义位置是一个区域,在该区域中聚集的用户具有相似的情境信息,如年龄、性别、活动等。学校、医院、公司等都可以是语义位置。
设SQ是提交给服务提供商的所有查询组成的集合。对于任意一个查询 ,都有一个语义位置?与查询用户相关联。例如,在2.2.1节的例子中,一个用户从Acme公司总部提出查询Qi,则该查询的语义位置即Acme公司。需要说明的是,一个语义位置可能有很多实例。例如,Acme公司具有很多分公司,这些分公司遍布于不同的地方。如果Li='Acme'且Acme有3家分公司,则T('Acme')={Acme1, Acme2, Acme3}。攻击者观察所有查询,可以估计每一个查询的语义位置分布。形式化的表示即对于任意一个语义位置 (SL是所有语义位置组成的集合),攻击者可以估计查询q的语义位置分布DLi(q)。通过这些估计值,攻击者可能获得用户隐私。
例如,设位置语义集合SL={L1,L2,L3},SQ={Q1,Q2,Q3}。假设攻击者观察到了100个查询,其查询分布如图2-12所示。攻击者通过图2-12中的数据统计生成形如 的关联规则。设L1=Acme,Q1=“寻找到达107街道的最快路径”。因为该查询从Acme公司发出的概率最高(89%),则攻击者可以假设该查询即Acme的员工,即推断Acme的客户居住在107街道,并可通过其他公开信息获得在107街道用户的基本信息。
从图2-12中可发现,相同的查询Qi可以从多个语义位置发出。这些语义位置用QLi表示。在刚才的例子中可以提出查询Q1的语义位置QL1={L1,L3}。如果查询Qi从Lj提出查询的概率大于零,则称位置 。由此定义弱位置差异性。

弱位置差异性:一个查询Qi展现弱位置差异性,如果 ,即查询Qi至少与l个不同的语义位置相关。
在图2-13所示的例子中,SL={Acme, Hospital, School, Shopping Mall}。用户u从Acme提出查询,匿名服务器根据先验知识为用户u选择语义位置集合。该集合中的语义位置满足两个条件:1)覆盖用户u的位置;2)除用户u的语义位置外,包含l-1个其他的语义位置。设匿名服务器选择的语义位置QLu={Acme, Hospital, School}。采用数据失真中随机化的位置保护方法(如生成假数据),从Hospital和School两个语义位置范围内随机生成两个假用户uh和us,与u组成匿名集,该匿名集满足弱位置差异性(l=3)。在弱位置差异性中保证每一个查询语义仅有一个实例。

强位置差异性:一个匿名方法满足强位置差异性,如果对于 和每一个语义位置 ,将查询Qi与Lj之间建立起关联的概率最多为1/l。
如果一个匿名方法生成的匿名集合满足强位置差异性,则匿名集合中的每一个查询也满足弱位置差异型;但是反过来不成立。寻找满足强位置差异性的匿名方法比寻找满足弱位置差异性的方法要难。文献[52]表示根据每一个语义位置的实例个数,并不是任何情况都存在满足强位置差异性的方法。所以在文献[52]中给出了一种介于二者之间的匿名算法。然而,文献[52]并没有考虑地址的敏感性。文献[41]进一步将物理地址划分为敏感与不敏感两类,考虑位置敏感度的安全匿名区域的定义参见定义2-4。

时间: 2024-10-24 20:12:14

《位置大数据隐私管理》—— 2.2 位置同质性攻击的相关文章

《位置大数据隐私管理》—— 导读

前言 大数据时代,移动通信和传感设备等位置感知技术的发展将人和事物的地理位置数据化,与用户位置相关的数据通过各种各样的服务以多种形式产生.例如,用户通过"签到"等移动社交网络服务(如Foursquare.Yelp.Flicker等)以文本.图片形式主动发布时空的行为.再如,通过用户手机通话.短信等记录,个人位置数据由基站自动隐式收集.无论自动发布还是被动收集的位置数据均具有规模大.产生速度快.蕴含价值高等特点.瑞典市场研究公司Berg Insight发布的最新报告预测,全球基于位置服务

《位置大数据隐私管理》—— 第1章 位置信息与隐私保护 1.1 位置大数据

第1章 位置信息与隐私保护 1.1 位置大数据      移动通信和传感设备等位置感知技术的发展将人和事物的地理位置数据化.移动对象的传感芯片以直接或间接的方式收集移动对象的位置数据,其自动采集位置信息的速度和规模远远超过现有系统的处理能力.据统计,每个移动对象平均15 s提交一次当前位置,这样算来,全球上亿手机.车载导航设备等移动对象每秒提交的位置信息将超过一亿条[3].未来移动传感设备的进步和通信技术的提升将使位置信息的产生更频繁.这类具有规模大.产生速度快.蕴含价值高等特点的位置数据被称为

《位置大数据隐私管理》—— 1.5 典型的位置隐私保护技术

1.5 典型的位置隐私保护技术 传统的LBS隐私保护技术可以归纳为3类:基于数据失真的位置隐私保护方法.基于抑制发布的位置隐私保护方法以及基于数据加密的位置隐私保护方法.不同的位置隐私保护技术基于不同的隐私保护需求以及实现原理,在实际应用中各有优缺点. 1.5.1 基于数据失真的位置隐私保护技术 基于数据失真的方法,顾名思义是指通过让用户提交不真实的查询内容来避免攻击者获得用户的真实信息.对于一些隐私保护需求不严格的用户,该技术假设用户在某时刻的位置信息只与当前时刻攻击者收集到的数据有关,满足直

《位置大数据隐私管理》—— 2.3 查询同质性攻击

2.3 查询同质性攻击 2.3.1 攻击模型 简单来讲,查询同质性攻击即攻击者结合匿名集中发布查询的语义窥探用户隐私.在极端情况下,如果一个匿名集合中的所有服务请求都表示了同样的内容,如同一匿名集中用户均提出了一个"寻找肿瘤医院"的查询,则攻击者无须获知用户的具体位置,也无须确定哪个用户提出了哪个查询,也可推测攻击目标的健康状况[53].如图2-14所示,用户A.B和C组成匿名集.虽然攻击者无法确定用户的确切位置以及每一个查询的提出者,但是由于3个查询内容均与医院有关,所以用户的敏感信

《位置大数据隐私管理》—— 1.3 LBS中的个人隐私与挑战

1.3 LBS中的个人隐私与挑战 1.3.1 个人隐私      隐私是指个人或机构等实体不愿意被外界获知的私密信息.在具体应用中,隐私即数据所有者不愿意被披露的敏感信息,包括敏感数据以及数据所表征的特性,如病人的患病记录.财务信息等.信息隐私是由个人.组织或机构定义的何时.何地.用何种方式与他人共享信息,以及共享信息的内容.个人隐私即不愿意被披露的个人敏感信息,如个人的收入水平.健康状况.兴趣爱好等.由于人们对隐私的限定标准不同,对隐私的定义也有所差异.一般来说,任何可以确认特定某个人的,但个

《位置大数据隐私管理》—— 2.6 小结

2.6 小结 2003年,Marco Gruteser第一次提出位置连接攻击,在该攻击模型中泄露的是用户标识和查询内容,攻击者的背景知识是用户的精确位置.位置连接攻击体现的是快照位置的隐私泄露风险.由于匿名集合中位置语义相同或查询语义相同而造成的用户隐私泄露被统称为同质性攻击.位置同质性攻击中泄露的是敏感信息(健康状况),攻击者的背景知识是感兴趣点在地图上的分布状况.查询同质性攻击中泄露的也是敏感信息,攻击者的背景知识是用户的确切位置.若用户位置发生连续更新将产生新的攻击模型,典型的有位置依赖攻

《位置大数据隐私管理》—— 第2章 典型攻击模型和隐私保护模型 2.1 位置连接攻击

第2章 典型攻击模型和隐私保护模型 本章将对典型攻击模型和相应的隐私保护模型进行说明.攻击模型包括位置连接攻击.位置同质性攻击.查询同质性攻击.位置依赖攻击和连续查询攻击模型.隐私保护模型包括位置k-匿名模型.位置l-差异性模型.查询p-敏感模型和m-不变性模型.为解释方便,在介绍具体攻击模型和隐私保护模型前,首先介绍一种在基于数据失真的隐私保护技术中广泛使用的经典系统结构--中心服务器结构,如图2-1所示.需要说明的是,攻击模型的成立与否与采用的系统结构无关. 中心服务器结构包含移动用户.基于

《位置大数据隐私管理》—— 1.2 概念与定义

1.2 概念与定义 1.2.1 位置表示与定位技术 位置通常由三元组(x, y, t)表示,其中(x, y)表示移动对象所在的经纬度或者在某个参考坐标系(如UTM坐标系)下的坐标值,t表示时刻.表1-1展示移动对象O1.O2.O3在t1.t2.t3时刻的位置.以O1为例,在t1时刻,O1的位置坐标是(1, 2):在t2时刻,O1的位置坐标是(3, 3)等. 一个用户在不同时刻的位置组成该用户的轨迹.轨迹是移动对象的位置信息按时间排序形成的序列.通常情况下,一条轨迹可表示为: 其中,id是轨迹标识

《位置大数据隐私管理》—— 2.4 位置依赖攻击

2.4 位置依赖攻击 2.1节至2.3节中介绍的攻击模型仅关注快照(snapshot)位置,若用户位置发生连续更新将产生新的攻击模型,典型的攻击模型有位置依赖攻击和连续查询攻击.本节先介绍位置依赖攻击,2.5节将介绍连续查询攻击模型.位置依赖攻击模型也被称为基于速度的连接攻击模型,指当攻击者获知用户的运动模式(如最大运动速度)时产生的位置隐私泄露现象.具体来讲,根据用户的最大运动速度,可得到用户在某一时间段内的最大可达范围.因此,可以将用户的位置限制在最大可达到的区域与第二次发布的匿名区域的交集