大数据平台数据脱敏介绍

数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。

可以看到数据脱敏具有几个关键点:敏感数据、脱敏规则、使用环境。

敏感数据,又称隐私数据,常见的敏感数据有: 姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如账户查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。

随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中蕴藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战–个人隐私信息 的保护。个人信息与个人行为(比如位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的基础上如 何保护人的隐私信息,也将是数据脱敏必须解决的难题。

脱敏规则,一般的脱敏规则分类为可恢复与不可恢复两类。

  • 可恢复类,指脱敏后的数据可以通过一定的方式,可以恢复成原来的敏感数据,此类脱敏规则主要指各类加解密算法规则。
  • 不可恢复类,指脱敏后的数据被脱敏的部分使用任何方式都不能恢复出。一般可分为替换算法和生成算法两大类。替换算法即将需要脱敏的部分使用定义好的字符或字符串替换,生成类算法则更复杂一些,要求脱敏后的数据符合逻辑规则,即是“看起来很真实的假数据”。

使用环境,主要指脱敏之后的数据在哪些环境中使用。普遍按照生产环境和非生产环境(开发、测试、外包、数据分析等)进行划分。

在最近一期的Gartner关于数据脱敏的报告(Magic Quadrant for Data Masking Technology-2014年12月)中根据数据脱敏产品应用场景的将数据脱敏划分为静态数据脱敏(static data masking[SDM])和动态数据脱敏(dynamic data masking[DDM])。

静态数据脱敏(SDM)与动态数据脱敏(DDM)主要的区别是:是否在使用敏感数据当时进行脱敏。

静态数据脱敏(SDM)一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,一般用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进行数据分析等,但又不能将敏感数据存储于非生产环境的问题。

动态数据脱敏(DDM)一般用在生产环境,在访问敏感数据当时进行脱敏,一般用来解决在生产环境需要根据不同情况对同一敏感数据读取时需要进行不同级别脱敏的问题。

隐私数据脱敏技术

通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型:

  • 可确切定位某个人的列,称为可识别列,如身份证号,地址以及姓名等。
  • 单列并不能定位个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列,如邮编号,生日及性别等。美国的一份研究论文称,仅使用邮编号,生日和性别信息即可识别87%的美国人[3]。
  • 包含用户敏感信息的列,如交易数额,疾病以及收入等。
  • 其他不包含用户敏感信息的列。

所谓避免隐私数据泄露,是指避免使用数据的人员(数据分析师,BI工程师等)将某行数据识别为某个人的信息。数据脱敏技术通过对数据进行脱敏,如移除识别列,转换半识别列等方式,使得数据使用人员在保证可对#2(转换后)半识别列,#3敏感信息列以及#4其他列进行数据分析的基础上,在一定程度上保证其无法根据数据反识别用户,达到保证数据安全与最大化挖掘数据价值的平衡。

隐私数据泄露类型

隐私数据泄露可以分为多种类型,根据不同的类型,通常可以采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险,以及对应不同的数据脱敏算法对数据进行脱敏。一般来说,隐私数据泄露类型包括:

个人标识泄露。当数据使用人员通过任何方式确认数据表中某条数据属于某个人时,称为个人标识泄露。个人标识泄露最为严重,因为一旦发生个人标识泄露,数据使用人员就可以得到具体个人的敏感信息。

属性泄露,当数据使用人员根据其访问的数据表了解到某个人新的属性信息时,称为属性泄露。个人标识泄露肯定会导致属性泄露,但属性泄露也有可能单独发生。

成员关系泄露。当数据使用人员可以确认某个人的数据存在于数据表中时,称为成员关系泄露。成员关系泄露相对风险较小,个人标识泄露与属性泄露肯定意味着成员关系泄露,但成员关系泄露也有可能单独发生。

隐私数据泄露风险模型

将数据开放给数据分析人员,同时就引入了隐私数据泄露的风险。在限制隐私数据泄露风险在一定范围内的同时,最大化数据分析挖掘的潜力,是数据脱敏技术的最终目标。目前在隐私数据脱敏领域,有几个不同的模型可以用来从不同角度衡量数据可能存在的隐私数据泄露风险。

K-Anonymity

隐私数据脱敏的第一步是对所有可标识列进行移除或是脱敏,使得攻击者无法直接标识用户。但是攻击者还是有可能通过多个半标识列的属性值识别个人。攻击者可能通过社工(知道某个人的姓名,邮编,生日,性别等)或是其他包含个人信息的以开放数据库获得特定个人的半标识列属性值,并与大数据平台数据进行匹配,从而得到特定个人的敏感信息。如表一所示,如果攻击者知道某用户的邮编和年龄,就可以得到该用户的疾病敏感信息。为了避免这种情况的发生,通常需要对半标识列进行脱敏处理,如数据泛化等。数据泛化是将半标识列的数据替换为语义一致但更通用的数据,已上述数据为例,对邮编和年龄泛化后的数据如表二所示。

原始信息

经过泛化后,有多条纪录的半标识列属性值相同,所有半标识列属性值相同的行的集合被称为相等集。例如,表二中1,2,3行是一个相等集,4,5,6行也是一个相等集。Sama- rati and Sweeney[4]引入了K-Anonymity用于衡量个人标识泄露的风险。 K-Anonymity定义如下:

K-Anonymity要求对于任意一行纪录,其所属的相等集内纪录数量不小于k,即至少有k-1条纪录半标识列属性值与该条纪录相同。

图二中的数据是一个3-Anonymity的数据集。作为一个衡量隐私数据泄露风险的指标,K-Anonymity可用于衡量个人标识泄露的风险,理论上来说,对于K-Anonymity数据集,对于任意纪录,攻击者只有1/k的概率将该纪录与具体用户关联。

L-Diversity

K-Anonymity可用于保护个人标识泄露的风险,但是无法保护属性泄露的风险。对于K-Anonymity的数据集,攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。

同质属性攻击。对于图二半标识列泛化后的数据集,假如攻击者知道Bob邮编为47677,年龄为29,则Bob一定对应于前面三条记录,从而可以确定Bob有心脏病。

背景知识攻击。对于图二半标识列泛化后的数据集,假如攻击者知道Alice邮编为47673,年龄为36,则Alice一定对应于后面三条记录,如果攻击者知道Alice患有心脏病的几率很小,则能判断Alice很有可能患有癌症。

Machanavajjhala et al. [5] 引入了L-Diversity用于衡量属性泄露的风险,L-Diversity定义如下:

如果对于任意相等集内所有记录对应的敏感数据的集合,包含L个”合适”值,则称该相等集是满足L-Deversity。如果数据集中所有相等集都满足L-Deversity,则称该数据集满足L-Deversity。

所谓L个“合适”值,最简单的理解就是L个不同值。基于图二的数据通过插入干扰纪录,一个3-Anonymity 2-Diversity的数据集如表三所示:

相对于K-Anonymity标准,符合L-Deversity标准的数据集显著降低了属性数据泄露的风险。对于满足L-Diversity的数据集,理论上,攻击者最多只有1/L的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。一般来说是通过插入干扰数据构造符合L-Diversity标准的数据集,但是同数据泛化一样,插入干扰数据也会导致表级别的信息丢失。同时L-Diversity标准也有不足之处。

L-Diversity标准有可能很难或是没有必要实现。例如,对于HIV的测试数据,测试结果列可能为阴性或是阳性。对于10000条记录,可能99%的记录都是阴性的,只有1%是阳性的。对于用户来说两种不同的测试结果敏感程度也是不同的,测试结果为阴性的用户可能不介意其他人看到他的测试结果,但是测试结果为阳性的用户可能更希望对别人保密。为了生成2-Deversity的测试数据集,会丢失大量的信息,降低数据分析挖掘的价值。

L-Diversity标准无法防御特定类型的属性数据泄露。

倾斜攻击如果敏感属性分布存在倾斜,L-Diversity标准很有可能无法抵御属性数据泄露。继续以HIV测试数据为例,假如构造的数据集对于任意相等类测试结果都包含阴性与阳性,且阴性数量与阳性相同,该数据集肯定满足2-Diversity。按照真实测试记录的分布,对于任意个人,攻击者只能判断其有1%的可能测试结果为阳性。但是对于2-Diversity数据集,攻击者会判断每个人有50%的可能测试结果为阳性。

相似性攻击如果相等类的敏感属性分布满足L-Diversity,但是属性值相似或是内聚,攻击者有可能从得到很重要的信息。例如对于表四所示,病人数据满足3-Diversity,攻击者如果了解Bob邮编为47677,年龄为29,则可以确认Bob的工资收入在3-5K之间,且能确认Bob得了胃病相关的病,因为前三条的病都和胃病相关。

简单来说,对于L-Diversity相同的相等集,敏感属性值的分布信息对于保护属性泄露至关重要。L-Diversity只是用来衡量相等集的不同属性值数量,并没有衡量不同属性值的分布,所以其在衡量属性泄露风险上仍有不足之处。

T-Closeness

直观的来说,隐私信息泄露的程度可以根据攻击者增量获得的个人信息衡量。假设攻击者在访问数据集之前已知的个人信息为B0,然后假设攻击者访问所有半标识列都已移除的数据集,Q为数据集敏感数据的分布信息,根据Q,攻击者更新后的个人信息为B1.最后攻击者访问脱敏后的数据集,由于知道用户的半标识列的信息,攻击者可以将某用户与某相等集联系在一起,通过该相等集的敏感数据分布信息P,攻击者更新后的个人信息为B2.

L-Diversity约束是通过约束P的diverisity属性,尽量减少B0和B2之间的信息量差距,差距越小,说明隐私信息泄露越少。T-Closeness约束则期望减少B1和B2之间的信息量差距,减少攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息。T-Closeness的定义如下:

如果一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T,则称该相等类满足T-Closeness约束。如果数据集中的所有相等类都满足T-Closeness,则称该数据集满足T-Closeness.

T-Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联系,减弱了半标识列属性与特定敏感信息的联系,减少攻击者通过敏感信息的分布信息进行属性泄露攻击的可能性。不过同时也肯定导致了一定程度的信息丢失,所以管理者通过T值的大小平衡数据可用性与用户隐私保护。

常见数据脱敏算法

K-Anonymity, L-Diversity和T-Closeness均依赖对半标识列进行数据变形处理,使得攻击者无法直接进行属性泄露攻击,常见的数据变形处理方式如下:

大数据脱敏平台

用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体,彻底的数据脱敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。另一方面,完全保留用户隐私数据信息,可最大化数据的分析价值,同时导致用户隐私泄露的风险无法控制。因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户标识信息,而是包括如下几个目标:

数据泄露风险可控。首先,实现基于大数据平台的脱敏算法库,可并行,高效的按照脱敏规则对隐私数据进行脱敏。其次,基于数据脱敏的理论基础,建立用户隐私数据泄露风险的衡量模型,可定性定量的准确衡量数据可能发生泄露的风险。

可管理。结合大数据平台的用户认证体系,权限管理体系,以及隐私数据不同保护级别的权限管理体系,实现对隐私数据基于审批的数据访问机制。结合公司制度,规范,法务等管理,实现在尽可能保护用户隐私数据,减少数据泄露风险的前提下,最大化保留数据分析挖掘的价值。

可审计。对数据的访问要保证可回溯,可审计,当发生数据泄露时,要保证能够通过审计日志找到对应的泄露人员。

大数据脱敏平台的设计方向一般包括静态大数据脱敏平台和动态大数据脱敏平台,所谓静态和动态之分,主要在于脱敏的时机不同。对于静态脱敏来说,数据管理员提前对数据进行不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限。对于动态脱敏来说,管理员通过元数据管理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中按照用户权限动态的进行脱敏处理。大数据平台脱敏技术方案是一个非常有趣的课题,目前业界还没有看到有成熟的方案,鉴于其对数据安全和数据价值的作用,非常值得深入研究,希望以后可以继续以合适的方式分享我在这方面的研究与实践。

总结

针对于大数据平台对于数据脱敏的需求,本文分析了数据泄露可能带来的风险,介绍了数据脱敏技术的理论基础与实现方式,同时简单分析了大数据平台的隐私数据脱敏技术方向。本文讨论的均是基于离线数据的数据脱敏,流式数据的脱敏技术无论是理论基础与具体实践大都还处在摸索的过程中,留待以后继续探索。

本文作者:李呈祥

来源:51CTO

时间: 2024-11-02 14:48:39

大数据平台数据脱敏介绍的相关文章

百分点获C轮2500万美元融资 大数据平台"数据管家"问世

CNET科技资讯网 7月28日 北京消息(文/周雅):7月25日,国内大数据技术与应用服务商百分点集团宣布获得2,500万美元的C轮融资.同时,百分点发布新一代大数据平台"数据管家",宣告由提供大数据服务公司进入企业级大数据应用与云平台市场. 践行大数据战略 据了解,百分点花了5年的时间深耕大数据底层技术与应用系统.自2013年开始,百分点从大数据技术进入大数据管理与应用.对于此次C轮融资,百分点集团创始人兼董事长苏萌表示,融资金额将主要用于技术创新,包括企业级大数据应用与云平台.大数

携程基于Storm的实时大数据平台实践

  本文讲解了携程在实时数据平台的一些实践,按照时间顺序来说明我们是怎么一步一步构建起这个实时数据平台的,目前有一些什么新的尝试,未来的方向是怎么样的,希望对需要构建实时数据平台的公司和同学有所借鉴. 为什么要做实时数据平台 首先先介绍一下背景,为什么我们要做这个数据平台?其实了解携程的业务的话,就会知道携程的业务部门是非常多的,除了酒店和机票两大业务之外,有近20个SBU和公共部门,他们的业务形态差异较大,变化也快,原来那种Batch形式的数据处理方式已经很难满足各个业务数据获取和分析的需要,

我所经历的大数据平台发展史(上)——非互联网时代

这个数据平台发展史仅是我自己经历过的由传统数据平台到互联网数据平台发展的一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述. 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处.随着互联网的突飞猛进,每一次的技术变革都带来一场从技术.架构.业务的渐进式变革.直到今天,互联网与非互联网的数据平台架构已经存在着非常大的差异. 回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度

大数据与机器学习:实践方法与行业案例.1.2数据平台

1.2数据平台 数据平台是存放分析数据的平台,也是支持大多数数据分析和数据挖掘应用的底层平台,它使用了统一的数据清洗与处理规则,因而可以保证从基础平台上输出的数据内容是一致的. 传统的数据平台基本等同于大家熟悉的"数据仓库",但互联网浪潮让人们对数据采集.存储和应用提出了越来越高的要求,传统数据仓库平台独力难支,因此"现代化"的数据平台是多种数据库产品的融合.图1-3是一个精简化的现代数据平台架构图.   图1-3 数据平台架构示意图 现代的数据平台融合了传统数据仓

从数据仓库到大数据,数据平台这25年是怎样进化的?

" 从「数据仓库」一词到现在的「大数据」,中间经历了太多的知识.架构模式的演进与变革.数据平台这25年究竟是怎样进化的? 我是从2000年开始接触数据仓库,大约08年开始进入互联网行业.很多从传统企业数据平台转到互联网同学是否有感觉:非互联网企业.互联网企业的数据平台所面向用户群体是不同的. 那么,这两类的数据平台的建设.使用用户又有变化?数据模型设计又有什么不同呢? 我们先从两张图来看用户群体的区别. 用户群体之非互联网数据平台用户  企业的boss.运营的需求主要是依赖于报表.商业智能团队的

GDS副总裁:不排除打造开源云数据平台

GDS副总裁孙岗6月29日消息,国内IT服务厂商万国数据(GDS)日前联合投资方日本软银电信株式会社(下称"软银")推出基于VMware vCloud Datacenter技术核心的高可用云数据中心.万国数据副总裁孙岗在接受TechWeb采访时表示,软银与GDS还将构建全 新的虚拟私有云模式,未来业务扩展过程中,不排除为一定规模的特定客户打造开源云数据平台.据介绍,该高可用云数据中心属于万国数据上海外高桥数据中心的最新服务版块,已经正式面向国内市场商用.在功能上,高可用云数据中心可向用

从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的 Hadoop 和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台.这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡.此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患. 1. 计算框架篇 大数据的价值 只有在能指导人们做出有价值的决定时,数据才能体现其自身的价值.因此,大数据技术要服务于实际的用途,才是有意义的.

DockOne微信分享(九十九):海航生态科技舆情大数据平台容器化改造

本文讲的是DockOne微信分享(九十九):海航生态科技舆情大数据平台容器化改造[编者的话]海航舆情监控系统能够为海航集团内部提供监控网络舆情信息,对负面信息.重大舆情及时预警,研判具体舆情或者某一舆情专题事件的发展变化趋势,生成图标报告和各种统计数据,提高舆情工作效率和辅助领导决策.然而,随着项目的持续运行,许多问题逐渐暴露出来,为了解决这些难题,对整个项目重新规划设计,迁移到Hadoop.Spark大数据平台,引进持续化Docker容器部署和发布,开发和运营效率得到显著提升. 一. 舆情平台

为什么选择这样的大数据平台架构?

当前BAT基本公开了其大数据平台架构,从网上也能查询到一些资料,关于大数据平台的各类技术介绍也不少,但在那个机制.那个环境.那个人才.那个薪酬体系下,对于传统企业,可借鉴的东西也是有限的. 技术最终为业务服务,没必要一定要追求先进性,各个企业应根据自己的实际情况去选择自己的技术路径. 与传统的更多从技术的角度来看待大数据平台架构的方式不同,笔者这次,更多的从业务的视角来谈谈关于大数据架构的理解,即更多的会问为什么要采用这个架构,到底能给业务带来多大价值,实践的最终结果是什么. 它不一定具有通用性