前言
大数据时代,移动通信和传感设备等位置感知技术的发展将人和事物的地理位置数据化,与用户位置相关的数据通过各种各样的服务以多种形式产生。例如,用户通过“签到”等移动社交网络服务(如Foursquare、Yelp、Flicker等)以文本、图片形式主动发布时空的行为。再如,通过用户手机通话、短信等记录,个人位置数据由基站自动隐式收集。无论自动发布还是被动收集的位置数据均具有规模大、产生速度快、蕴含价值高等特点。瑞典市场研究公司Berg Insight发布的最新报告预测,全球基于位置服务的市场规模到2020年将达到348亿欧元。位置大数据中蕴含人类行为的特征,在疾病传播、贫困消除、城市规划等重大社会科学问题以及路线推荐、乘车出行等重要生活应用中发挥了关键作用。
然而,位置大数据在带给人们巨大收益的同时,也带来了个人信息泄露的危害。这是因为位置大数据直接或间接包含了个人身份、行动目的、健康状况、兴趣爱好等多方面的敏感隐私信息。位置大数据的不当使用会给用户各方面的隐私带来严重威胁。已有的一些案例说明了隐私泄露的危害,如:某知名移动应用由于不注意保护位置数据,导致根据三角测量方法可以推断出用户的家庭住址等敏感位置,引发多起犯罪案件;某著名移动设备厂商曾在未获得用户允许的情况下大量收集用户的位置数据,攻击者可以通过这些位置数据推测用户的身体状况等个人敏感信息。我国在十一届全国人大常委会第三十次会议上审议了《关于加强网络信息保护的决定草案》的议案,将个人信息保护纳入国家战略资源的保护和规划范畴,体现了国家对个人隐私保护问题的重视。随着个人隐私观念的增强以及相关法律法规的健全,如何在大数据多源数据融合的环境下既不泄露用户隐私又能提高位置大数据的利用率,如何保证在牺牲最小代价的前提下既满足服务质量要求又保护个人隐私,成为位置大数据隐私保护的研究重点。
本书的内容和组织结构
本书系统地介绍了位置大数据、基于位置服务、位置隐私等相关概念,总结归纳了传统位置隐私保护研究中经典的攻击模型和隐私保护模型,并举例说明了不同攻击模型的经典保护方法。随后分别针对用户静态快照位置、动态位置、连续轨迹介绍了相应的隐私保护方法,以及面向隐私的查询处理技术。
本书共分为6章,具体如下所示。
第1章介绍了位置大数据相关的基本概念、LBS中的个人隐私保护问题所面临的主要挑战,以及典型的隐私保护技术。
第2章对典型攻击模型和相应的隐私保护模型进行了说明。
第3章针对用户的快照位置,分别介绍感知服务质量、无精确位置和无匿名区域的位置隐私保护方法。
第4章针对用户的动态位置,介绍了3种位置隐私保护技术,不仅考虑了移动用户的当前位置,同时顾及了用户的运动模式或未来位置。
第5章针对用户的历史位置数据,分别介绍了基于图划分的轨迹隐私保护技术、区分位置敏感度的轨迹隐私保护技术和基于前缀树的轨迹隐私保护方法。
第6章介绍一类在完全不泄露用户敏感查询信息的前提下,针对常见移动查询类型的面向隐私的查询处理技术。
致谢
孟小峰教授领导的中国人民大学网络与移动数据管理实验室自2006年即开始关注隐私保护这一领域的研究,先后针对位置数据隐私、轨迹数据隐私和位置大数据隐私等问题展开研究,取得了一系列研究成果,先后培养了多位隐私保护方面的博士。本书即是作者在多年研究成果的基础之上总结整理而成的。
首先感谢国家基金委和国家863计划的一贯支持,在连续十年间的研究中得到如下项目的资助:
2016~2020年,国家自然基金重点项目“大规模关联数据管理的关键技术研究”,编号:61532010。国家自然科学基金重大研究计划“大数据驱动的管理与决策研究”重点项目“大数据开放与治理中的隐私保护关键技术研究”,编号:91646203。
2014~2017年,国家自然基金面上项目“面向移动用户的Web集成技术研究”,编号:61379050。
2014~2016年,国家自然基金青年项目“基于位置服务在受限网络中的个人隐私保护技术研究”,编号:61303017。
2011~2013年,国家自然基金面上项目“Web信息可信性研究”,编号:61070055。
2009~2011年,国家863计划重点项目“普适计算基础软硬件关键技术及系统”课题“隐私保护技术”,编号:2009AA011904。
2014~2016年,河北省自然科学基金面上项目和青年项目“基于位置服务中的隐私保护技术研究”,编号:F2014210068;“道路网络中轨迹隐私保护技术研究”,编号:F2015207009;“基于大数据的移动商务隐私感知推荐技术研究”,编号:F2015210106。
本书的形成凝聚了实验室的集体智慧。特别感谢实验室的博士生和硕士生们的工作,其中包括硕士生尹少宜、肖珍、谢敏、黄毅,以及博士生潘晓、霍峥、张啸剑、王璐等。潘晓和霍峥博士直接参与本书的写作,孟小峰教授负责审阅全书。
本书可作为普通高等院校计算机和信息技术相关专业的大数据研究生课程的教材,也可供从事计算机相关专业的技术人员和学者作为参考书。
感谢机械工业出版社华章公司的编辑们,他们在全文的校对和编辑出版过程中付出了巨大的努力。因作者水平有限,书中错误在所难免,恳请批评指正。
目录
前言
第1章 位置信息与隐私保护
1.1 位置大数据
1.2 概念与定义
1.2.1 位置表示与定位技术
1.2.2 基于位置服务
1.3 LBS中的个人隐私与挑战
1.3.1 个人隐私
1.3.2 面临的挑战
1.4 隐私泄露威胁
1.5 典型的位置隐私保护技术
1.5.1 基于数据失真的位置隐私保护技术
1.5.2 基于抑制发布的位置隐私保护技术
1.5.3 基于数据加密的位置隐私保护技术
1.5.4 性能评估与小结
第2章 典型攻击模型和隐私保护模型
2.1 位置连接攻击
2.1.1 攻击模型
2.1.2 位置k-匿名模型
2.2 位置同质性攻击
2.2.1 攻击模型
2.2.2 位置l-差异性模型
2.3 查询同质性攻击
2.3.1 攻击模型
2.3.2 查询p-敏感模型
2.4 位置依赖攻击
2.5 连续查询攻击
2.5.1 攻击模型
2.5.2 m-不变性模型
2.6 小结
第3章 快照位置隐私保护方法
3.1 感知服务质量的位置隐私保护方法
3.1.1 问题形式化定义
3.1.2 基于有向图的匿名算法
3.2 无精确位置的位置隐私保护方法
3.2.1 系统结构
3.2.2 问题定义
3.2.3 无精确位置的匿名算法
3.3 无匿名区域的位置隐私保护方法
3.3.1 系统结构
3.3.2 问题定义
3.3.3 CoPrivacy位置隐私保护方法
3.4 小结
第4章 动态位置隐私保护
4.1 移动用户位置隐私保护技术
4.1.1 两个直观的保护方法
4.1.2 基于极大团的保护方法
4.2 连续查询位置隐私保护技术
4.2.1 基本定义
4.2.2 贪心匿名算法
4.2.3 自底向上匿名算法
4.2.4 混合匿名算法
4.3 基于隐秘位置推理的隐私预警机制
4.3.1 轨迹重构攻击模型
4.3.2 隐私预警机制
4.4 小结
第5章 连续轨迹数据隐私保护
5.1 轨迹数据隐私
5.2 基于图划分的轨迹隐私保护技术
5.2.1 预备知识
5.2.2 数据预处理与轨迹图构建
5.2.3 基于图划分的轨迹k-匿名
5.3 区分位置敏感度的轨迹隐私保护技术
5.3.1 轨迹k-匿名及存在的问题
5.3.2 地理位置、访问位置和语义位置
5.3.3 区分位置敏感度的轨迹隐私保护
5.4 基于前缀树的轨迹隐私保护方法
5.4.1 系统结构
5.4.2 PrivateCheckIn方法
5.4.3 前缀树的构建与剪枝
5.4.4 前缀树的重构
5.5 小结
第6章 面向隐私的查询处理技术
6.1 面向隐私的近邻查询保护方法
6.1.1 系统框架
6.1.2 攻击模型和安全模型
6.1.3 基于PIR的k最近邻处理方法
6.2 面向隐私的双色反向最近邻查询
6.2.1 BRNN查询隐私保护方法
6.2.2 基于不同空间划分的PIR-BRNN算法
6.2.3 优化策略
6.3 隐私保护强度可调的有效空间查询
6.3.1 问题定义
6.3.2 基于α-EAI的空间查询隐私保护框架
6.3.3 基于α-EAI的隐私保护方法
6.4 小结