大数据治理是更广泛的信息治理计划的一部分,通过调整多个功能的目标制定与大数据优化、隐私和货币化相关的策略。然而,若不了解基础">数据类型,大数据治理则毫无意义。
图 1. 大数据治理的一个 3 维框架
图字:行业和功能、大数据类型、信息治理
本文提供一个大数据治理框架。如图 1 所示,该矿框架由 3 个维度构成:
大数据类型 大数据可分成 5 类:Web 和社交媒体、机器到机器(M2M)、大事务数据、生物识别和人为产生的。
信息治理学科 信息治理传统学科 – 组织、元数据、隐私、数据质量、业务流程集成、主数据集成,以及信息生命周期管理 – 也适用于大数据。例如,传感器数据需要集成到一个预防性维护流程中。然而,如果不同机器上的传感器生成不一致的事件代码,就很难简化维护流程。
行业和功能 大数据分析是由特定于给定行业或功能的用例所驱动,比如市场营销、客户服务、信息安全或信息技术。
如上所述,大数据分为 5 类:
1. Web 和社交媒体数据 包括来自社交媒体的点击流和交互数据,比如 Facebook、Twitter、LinkedIn 和博客。
2. 机器到机器数据 包括从传感器、测量仪以及属于所谓的“物联网”的其他设备中读取的数据。
3. 大事务数据 包括医疗索赔、电信呼叫详细记录(CDR)和以半结构化和结构化格式提供的越来越多的公用事业帐单记录。
4. 生物识别数据 包括指纹、基因、笔迹、视网膜扫描以及相似类型的数据。
5. 人为产生的数据 包括大量非结构化和半结构化数据,比如呼叫中心代理的笔记、录音、电子邮件、纸质文档、调查、电子医疗记录。
大数据框架看起来有所不同,具体取决于行业和功能。
医疗保健供应商
解决方案: 病患监护
大数据类型:M2M数据
学科: 数据质量、信息生命周期管理、隐私
在新生儿重症监护室,医院利用流线化分析技术监护新生儿的健康状况。使用这些技术,医院能够在任何症状出现前 24 小时预测尚未发作的疾病。这些技术依赖于大量时间序列数据 – 但是,当病人移动时这类数据有时候会消失,这可能导致脱离和停止提供读数。在这些情况下,流线化平台使用线性和多项式回归来使用历史读数填补时间序列数据空白。医院也为所有经软件算法修改过的时间序列数据加上标记。如果发生诉讼或医疗调查案件,医院211.html">觉得必须同时生成原始读数和修改后的读数。另外,医院也围绕维护受保护健康信息制定了政策。
解决方案: 基于电子医疗记录的预测性建模
大数据类型:人为产生的数据
学科: 数据质量
医院的分析部门构建了一个基于 150 个变量和 20,000 个接诊病人的预测性模型,以确定一个病人可能再次住院接受 30 天的充血性心力衰竭治疗的可能性。在一个预测性模型有效性示例中,分析团队将病人吸烟状况确定为一个关键变量。起初,只有 25% 的关于吸烟状况的结构化数据是以二元答案“是/不是”填充的。但是,分析团队通过使用基于电子医疗记录的内容分析将吸烟状态人口比率增加到了接诊人数的 85%,该电子医疗记录包含医嘱、出院摘要和病人体检 – 结果是分析团队通过使用非结构化资源提高了稀疏分步的结构化数据的质量。