关于流程挖掘中的数据隐私、数据安全、数据道德底线的一些思考

雷锋网按:数据隐私、数据安全、数据道德这三者一直是商业界与学术界探讨的热点问题,本文就在流程过程中如和处理上述三个问题,提出了一些自己的见解。本文作者为 Anne Rozinat 博士与Christian W. Gunther 博士,雷锋网(公众号:雷锋网)编译,未经许可不得转载。

十二年前,我移民到了荷兰,常在当地的一家连锁超市买东西,一开始他们让我办购物卡,说这种卡在它们的连锁店买东西会打折,但我却不想办这种卡。我一直觉得,如果商家知道了我的购买记录,那么他们就会采取一些针对方案(如广告推送)使我购买更多的商品(而我原本并不想买的),但是后来我发现,是我想错了。

数据分析技术本身不存在好坏之分,人们使用数据分析技术只是为了让产品的销量更好。例如,超市通过分析人们的购物习惯,在摆放商品时,它们会让顾客走尽可能长的路,花费尽可能多的时间来买顾客原本想买的东西。在买全物品的过程中,让顾客尽可能多的看到在他们购买计划之外的商品,以增加这些计划外商品的销售量。除此之外,商场还可以使用顾客的购买信息,为顾客提供更好的购物体验。

许多公司以这种或那种的方式对数据进行分析,这些数据分析技术给公司和消费者带来了极大的好处,数据分析技术的广泛使用虽然带了很多好处,但也产生了一些问题,最主要的就是数据道德问题。Responsible Data Science在研讨会主动讨论了关于数据道德问题、并且呼吁研发人员在研究算法时不应只研究算法本身,还要考虑数据的准确性,保密性、安全性等问题。随着其探讨与呼吁,越来越多的人开始关注到了这一问题。

如果流程挖掘运用得当,那么它将可以使你更加深入了解你的业务处理流程,并提出改进措施。但这面临一个问题,那就是你怎么保证你在流程挖掘过程没有触碰道德底线呢?你在流程挖掘中应该注意些什么呢?

在本文中,我们就在流程挖掘过程中应该注意的问题,提出了一些自己的见解。

1.目标明确

首先我们应明确我们的分析目标,大多数情况我们下,我们只需要对内部组织流程进行分析。进一步说,你是对整体进行分析。举个例子,一个流程挖掘的目标可能是让人们不要闲下来,而不是让人们的工作效率更高。此外,流程之间是相互影响的,一旦你想要对某一特定流程进行深入了解,你就得深入研究其它流程,因为这些流程会对你要研究的那个流程造成影响。

因此在进行流程挖掘的开始阶段,你就应该明确你的分析目标,弄清分析结果可以应用在哪些地方,想明白你要处理哪些问题以及为了解决这些问题,你需要哪些数据。

在这个过程中,以下事情你需要做:

  • 所用数据是否有法定限制。例如,在德国,员工相关信息是不允许直接拿来使用的,如果你的项目需要使用员工信息,你需要对员工信息进行加密处理,然后再使用;
  • 项目道德底线问题。在确定项目目标时,你应该考虑哪些地方可以使用你的分析结果,哪些地方不能用。举个例子,你研发了一个对人的工作效果进行评估的项目,在项目的开始时,你就应该明确该项目不会用在自己的员工身上。此外,我们还应该与数据提供者随时保持联系,以便他们随时为你提供你所需要的数据。

以下事情不能做:

  • 在项目目标不明确的情况下启动项目。要启动一个项目,一定要想清楚你到底要解决什么问题?解决这些问题到底需要哪些数据?你的项目应该紧跟商业目标,这样才能取得商业经理的支持。
  • 项目不要立得太大,应该有一个清楚、明确、具体的目标。如果一个项目过大,那么人们会很难弄清楚你到底要做什么,进而可能会出现反对你的项目的情况。

2.责任意识

当你获得数据后,你关心的只是数据本身。只有发生数据泄露问题时,人们才意识到数据安全问题。所以拿到数据之后,一定要对你拿到的数据进行恰到的保护,以防数据泄露,为了做到这些,你需要做以下事情:

  • 与员工签署数据保密协议;
  • 对数据存储设备进行加密处理;
  • 数据检查,在将拿到的数据交给开发人员之前,应对数据进行仔细检查,确保没有多余信息、敏感信息的出现;
  • 不要使用任何需要数据上传的过程挖掘工具,过程挖掘工具应该使用本地内部版本。

不能做的事情:

  • 直接将数据交给研发人员,而不对其进行任何审查;
  • 未经公司允许,将数据直接上传到云端过程挖掘工具中。

3.加密意识

如果数据集中有敏感信息怎么办呢?将这些敏感信息直接删除,除了这种方法,我还有别的选择吗?当然有,我们可以对这些信息进行加密处理,例如员工姓名 Mary Jones、Fred Smith。我们可以将其处理成Resource 1、Resource 2。如果同一个名字出现多次,我们就用同样的值将其替换。这样就可以对你的信息即进行了加密处理、又保留了数据信息的完整性。例如,在对员工姓名进行加密后,你照样可以对每个员工的工作量进行分析。

让我们值得高兴的事,一些过程挖掘工具包含了加密功能。这就意味加密将变得简单,我们只需简单的将数据导入工具,然后选择要加密的数据,轻轻一点,就实现了数据加密。 在这个过程中,你需要做如下事情:

●  确定要加密信息并且明确加密后对数据分析的影响;

●  提高信息安全意识,某些信息即使加密,也有可能会造成信息安全问题。例如在病历中,只有一个人患有某一种罕见的特殊疾病,如果我们知道这个人的出生日期及其出生时间,那么通过这些信息我们就很有可能推断出患有此疾病的人是谁。

●  数据清洗之前进行数据加密。例如:在不同地区我们对用户类别的叫法稍有不同,但它们实际是一类,在数据清洗的时候,你可以简单的将那些叫法不同但含义相同的类进行合并,如果你先对数据进行了加密,那么这些叫法不同但含义相同的类将被彻底分为两个不同的类,它们将会很难被合并。

以下事情不应该做:

不要给不需要加密的信息进行加密处理。加密尽管可以保留原始信息,但其却会失去相关信息。举个例子,如果你对Case ID进行加密,那么在服务台你就无法查询关于该Case ID的先关信息。如果你的团队责任意识强、保密意识强,那么你还是可以考虑将原始数据向整个团队公开的。

4 合作文化

在负责任的流程挖掘过程中,最重要的就是创建一种合作的文化。流程挖掘可以发现业务流程中的不足,并将这种不足以一种透明的形式展现在人们面前,因此,我们应鼓励人们说“实话”,即说出业务流程中的不足。此外,我们还应该选择一种恰当的方式将你的流程挖掘目标与相关人员进行沟通。这样做的目的是为创造一种这样的环境,即我们不是在责怪你(因为你使得业务流程出现问题),而是说与你一起努力,使我们的流程更加合理、完善。为了达到这个效果,你应该做如下事情:

  • 确保数据质量,最好聘请相关领域专家对数据进行审查。数据质量足够高,那么挖掘出来的信息才能让人更加信服、更具有代表性。
  • 使用迭代的方式进行挖掘,即将挖掘出的新信息做为下一次挖掘的已知条件。给人们解释与提问的机会。这有助于提高你的挖掘效果。
  • 跳出结论:永远不要以为自己将流程看得很清、很透。进展慢的组可能解决了棘手的问题。人们可能因为一个充分而合理的理由而对原问题跑偏。讨论的时候,将自己的观察作为出发点,而不是结论,听取别人的解释,构建一种信任、协作的文化氛围。

不要做的事情:

不要通过歪曲数据来证明自己的观点,相反,密切注意过程挖掘中所采用的的数据与流程。对分析结果有任何疑问,我们都要进行相关回溯。例如,如果我们对挖掘出的结果有疑问,我们就应该立即分析,以确定到底是哪些数据过滤导致了这个观点的产生。

via KDnuggets,雷锋网编译

【兼职召集令!】

如果你对未来充满憧憬,喜欢探索改变世界的科技进展,look no further!

我们需要这样的你:

精通英语,对技术与产品感兴趣,关注人工智能学术动态的萝莉&萌妹子&技术宅;

文字不求妙笔生花,但希望通俗易懂;

在这里,你会收获:

一群来自天南地北、志同道合的小伙伴;

前沿学术科技动态,每天为自己充充电;

更高的生活品质,翻翻文章就能挣到零花钱;

有意向的小伙伴们把个人介绍/简历发至 guoyixin@leiphone.com,如有作品,欢迎一并附上。

本文作者:小东

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-20 05:37:25

关于流程挖掘中的数据隐私、数据安全、数据道德底线的一些思考的相关文章

中创电子政务数据交换平台解决方案

方案概要 中创软件推出的"电子政务数据交换平台解决方案",是基于中创软件Infor系列中间件技术,结合政府信息化建设现状及发展需求而推出的,使得各政府部门之间的基础数据共享,让基础数据发挥更大的社会价值,使得政府从宏观上把握经济运行的整体情况.该方案主要实现: 实现政府部门之间数据的安全.可靠交换和共享,避免数据重复采集,保持各部门基础数据的一致: 实现数据的即时整合,并对全局数据进行灵活的多维度分析和多样式展示,为管理层监控和决策提供有效支持. 系统概述 中创软件商用中间件有限公司与

上海伟雅:深度挖掘中端网商的发展需求

深度挖掘中端网商的发展需求 上海伟雅 7月20日在义乌的一个会议上做了一次讲演,这个会议的名字是<义乌市第一届电子商务发展论坛>,主办单位是义乌网商协会.我的感觉是大会所请的嘉宾很不错,在中端网商类的会议上,这样的嘉宾已经是一流的了.会议的组织者做了不少准备.义乌现在有2.3万个网站网店,在会议的参加人数上还需要加强一些,义乌网商协会需要积累网商数据. 如何办好这样的网商会议?我的感觉是,网商会议如果要有实际效果,分开等级极为重要.高端的网商是目前已经很出名的B2C网站,一般都是有风险投资和巨

基于python从redmine-api中获取项目缺陷数据并可视化(2)

上一篇文章讲到缺陷数据的获取实现方式,这篇文章主要讲讲如何通过web框架flask将获取到的数据进行web数据可视化 1.调研python web框架 一开始想通过html+js+highcharts去实现数据可视化,但是实现起来不方便而且本人js及前端开发了解甚少,所以还是借助web框架.故调研了以下框架进行对比分析,最终选取了flask框架 web框架调研对比.png 2.安装搭建web框架 2.1.安装flask 安装flask最便捷的方式是使用虚拟环境,这是一个python解释器的一个私

EMC:中国将成大数据时代引领者的三大理由

美国当地时间5月21日(http://www.aliyun.com/zixun/aggregation/17197.html">北京时间5月22日),EMCWORLD 2012正式开幕,EMC首席市场官Jeremy Burton在接受CNET科技资讯网记者采访时透露,中国将成为大数据时代的领导者. Jeremy Burton告诉CNET科技资讯网指出,之所以这么说,是因为三点:一是中国已经成为诸如PC.互联网.智能手机用户群最大的市场,无时无刻不产生大数 据:第二是因为中国的云计算和全球起

libmad-提取mp3中真正的音频数据

问题描述 提取mp3中真正的音频数据 用libmad解码,运行./minimad 输出乱码显示decoding error 0x0101(lost synchronization)然后安装了zlib和libid3tag ,这时应该这样修改minimad.c把后面加装的两个库加进去.目地是想获得音频数据(如果数据是十进制或十六进制的更好),最终目地是通过音频数据控制灯光的闪烁(像舞台灯光). 解决方案 内维尔戈达德.最好的内维尔戈达德音频MP3电子书.ffmpeg提取音频.转换为mp3

xcode-获取表中列的全部数据

问题描述 获取表中列的全部数据 代码我想要获取所有引用数据,一共有320个引用.但是只得到了第一个引用. -(NSMutableArray *)getAllQuotesData { NSMutableArray *quotesArray = [[NSMutableArray alloc] init]; NSString *sqlStr = [NSString stringWithFormat:@"SELECT quote FROM quotes"]; sqlite3_stmt *Ret

Dom + Javascript 在本机浏览器中对的表格数据进行排序

dom|javascript|浏览器|排序|数据 在本机浏览器中对的表格数据进行排序在Web应用中,数据从服务器端返回到客户端,以表格形式表现出来.如果要对数据集按指定的列排序显示,常规做法都是向服务器发出请求,服务器端程序重新从数据库中取出按指定列排序的数据,返回给客户端,页面重新显示排序后数据. 采用这种方式有如下缺点:1- 响应时间延迟,每次排序都要向服务器端发送请求,等待结果返回,同时增加网络负载.2- 编程复杂,可维护性差,而且客户端和服务器端代码耦合度很高,客户端和服务器端都要处理排

在.NET Framework中轻松处理XML数据(三)

xml|数据 带验证的阅读器XmlValidatingReader类实现了XmlReader类,它提供了支持多种类型的XML验证:DTD,XML-Data Reduced(XDR)架构,以及XSD,DTD和XSD都是W3C官方推荐的.而XDR是Microsoft早期用于处理XML构架的一种格式. 你可以用XmlVlidatingReader类去验证XML文档和XML片断.XmlValidatingReader类工作在XML阅读器上面---是一个典型的XMLTextReader类实例.XM

Visual Foxpro中的多用户及数据缓冲问题

visual|数据|问题 主题:Visual Foxpro中的多用户及数据缓冲问题 绍 很多狐友(Foxers)都是从Dbase―FoxBase―Foxpro―VFP这样一条路走过来的,如果说从FoxBase 到Foxpro是一次飞跃,那么从Foxpro到VFP就是一次升华.漫漫编程路上的两次大变化都伴随着升级的兴奋与适应的痛苦,惯性思维往往使我们容易忽略新版本的新内容.我们先来看看下面这个在表单中编辑记录的例子: 在Foxpro 2.X时代,我是这样设计的: 1. 在屏幕上放置与表中字段对应的