一个关注大数据治理中的“数据”的框架

大数据治理是更广泛的信息治理计划的一部分,通过调整多个功能的目标制定与大数据优化、隐私和货币化相关的策略。然而,若不了解基础">数据类型,大数据治理则毫无意义。

图 1. 大数据治理的一个 3 维框架

图字:行业和功能、大数据类型、信息治理

本文提供一个大数据治理框架。如图 1 所示,该矿框架由 3 个维度构成:

大数据类型 大数据可分成 5 类:Web 和社交媒体、机器到机器(M2M)、大事务数据、生物识别和人为产生的。

信息治理学科 信息治理传统学科 – 组织、元数据、隐私、数据质量、业务流程集成、主数据集成,以及信息生命周期管理 – 也适用于大数据。例如,传感器数据需要集成到一个预防性维护流程中。然而,如果不同机器上的传感器生成不一致的事件代码,就很难简化维护流程。

行业和功能 大数据分析是由特定于给定行业或功能的用例所驱动,比如市场营销、客户服务、信息安全或信息技术。

如上所述,大数据分为 5 类:

1. Web 和社交媒体数据 包括来自社交媒体的点击流和交互数据,比如 Facebook、Twitter、LinkedIn 和博客。

2. 机器到机器数据 包括从传感器、测量仪以及属于所谓的“物联网”的其他设备中读取的数据。

3. 大事务数据 包括医疗索赔、电信呼叫详细记录(CDR)和以半结构化和结构化格式提供的越来越多的公用事业帐单记录。

4. 生物识别数据 包括指纹、基因、笔迹、视网膜扫描以及相似类型的数据。

5. 人为产生的数据 包括大量非结构化和半结构化数据,比如呼叫中心代理的笔记、录音、电子邮件、纸质文档、调查、电子医疗记录。

大数据框架看起来有所不同,具体取决于行业和功能。

医疗保健供应商

解决方案: 病患监护
大数据类型:M2M数据
学科: 数据质量、信息生命周期管理、隐私

在新生儿重症监护室,医院利用流线化分析技术监护新生儿的健康状况。使用这些技术,医院能够在任何症状出现前 24 小时预测尚未发作的疾病。这些技术依赖于大量时间序列数据 – 但是,当病人移动时这类数据有时候会消失,这可能导致脱离和停止提供读数。在这些情况下,流线化平台使用线性和多项式回归来使用历史读数填补时间序列数据空白。医院也为所有经软件算法修改过的时间序列数据加上标记。如果发生诉讼或医疗调查案件,医院211.html">觉得必须同时生成原始读数和修改后的读数。另外,医院也围绕维护受保护健康信息制定了政策。

解决方案: 基于电子医疗记录的预测性建模
大数据类型:人为产生的数据
学科: 数据质量

医院的分析部门构建了一个基于 150 个变量和 20,000 个接诊病人的预测性模型,以确定一个病人可能再次住院接受 30 天的充血性心力衰竭治疗的可能性。在一个预测性模型有效性示例中,分析团队将病人吸烟状况确定为一个关键变量。起初,只有 25% 的关于吸烟状况的结构化数据是以二元答案“是/不是”填充的。但是,分析团队通过使用基于电子医疗记录的内容分析将吸烟状态人口比率增加到了接诊人数的 85%,该电子医疗记录包含医嘱、出院摘要和病人体检 – 结果是分析团队通过使用非结构化资源提高了稀疏分步的结构化数据的质量。

时间: 2024-10-27 14:04:08

一个关注大数据治理中的“数据”的框架的相关文章

在PowerScript脚本中访问数据窗口中的数据

访问|脚本|数据 在PowerScript脚本中访问数据窗口中的数据张健姿 01-6-22 下午 03:50:25 在4.0 以 前 的 版 本, 如 果 您 想 在PowerScript 脚 本 中 访 问数 据 窗 口 中 的 数 据, 方 法 只 有 一 种, 那 就 是 使 用SetItem 和GetItem 系 列 的 函 数, 指 定 您 所 要 访 问 的 某 一 行 列 的 值, 这 一 方 法的 局 限 性 在 于 您 一 次 只 能 访 问 到 一 个 数 值. 而 在5.0

在数据窗口中检索数据

数据 在数据窗口中检索数据 我们往往需要数据窗口仅显示我们需要的数据.在数据窗口中检索数据的方法很多,常用的是设置SetFilter和使用SQL语句来实现. 1.使用SetFilter进行数据过滤 首先需要构造条件语句.如数据窗口中有一列名为xyh,我们需要检索xyh等于"叶秋枫"的数据.那么可写语句如下: string bl;bl="xyh='叶秋枫'";dw_1.setfilter(bl)//数据窗口的名为dw_1dw_1.retrieve()//重新检索数据

Excel表格中汇总多个数据表中的数据的方法

  Excel表格中汇总多个数据表中的数据的方法           1.打开需要处理的工作簿,在这个工作簿中,"11月采购表"和"12月采购表"工作表包含需要合并的数据,如图1所示."合计"工作表用于放置进行合并计算后的数据,其结构如图2所示. 图1 需要合并的两张工作表 图2 "合计"工作表的结构 2.在"合计"工作表中单击选择放置合并计算结果的单元格区域中的第一个单元格,然后在功能区"数据&

如何用c或c++提取wireshark抓取的数据包中的数据

问题描述 如何用c或c++提取wireshark抓取的数据包中的数据 我用wireshark抓取了数据包 如何通过程序提取出其中我想要的信息呢?求程序 解决方案 http://wenku.baidu.com/link?url=HmlLwziHvQ2eDGwL-fYNxviUawq7lCSA4X866SQYy-r1NVuqC-pcwV7_8gCkVMmlzFiozXpYVmfdabGw_pLk57s6E1hQgkOugvIOuToJKvC

“工程师”与“园丁”:大数据治理中的政府角色

在大数据治理中,政府必须同时扮演好两种角色,即"工程师"和"园丁"."工程师"呈现了政府刚性的一面,它是技术专家对经济社会的直接干预:除了刚性,政府还有"园丁"的一面,主要体现召集人.催化剂的角色,给社会发展和成长留足空间. 在大数据治理中,政府的目标是多样的.一方面要提高行政效率,促进大数据产业发展,引领和带动新兴产业,推动经济转型升级:另一方面要加强监管,维护社会公平正义,预防数据泄露,减少社会风险.政府必须同时扮演好两种

数据科学中的“数据智慧”

在大数据时代,学术界和工业界的大量研究都是关于如何以一种可扩展和高效率的方式对数据进行储存.交换和计算(通过统计方法和算法).这些研究非常重要.然而,只有对数据智慧(data wisdom)也给予同等程度的重视,大数据(或者小数据)才能转化为真正有用的知识和可被采纳的信息.换言之,我们要充分认识到,只有拥有足够数量的数据,才有可能对复杂度较高的问题给出较可靠的答案."数据智慧"对于我们从数据中提取有效信息和确保没有误用或夸大原始数据是至关重要的. "数据智慧"一词是

用sqldatasource 控件返回access数据表中的数据为什么不是按access表的顺序返回的?

问题描述 如题? 解决方案 解决方案二:你指定了排序了没?解决方案三:应该是AccessDataSource吧???使用数据源连数据库时,有个Where选项试一下~解决方案四:哎,好像理解错意思了,我的意思是,用数据源控件,为什么返回来的数据与数据表中的顺序不一样?????解决方案五:orderby

在liunx中编写一个脚步定期删除mysql中的数据实现步骤_unix linux

首先创建一个文件目录 mkdir myfile vi:创建修改文件 vi delradiusdata 复制代码 代码如下: vi是linux下创建和编辑文件常用的工具,下面已创建startWeblogic.sh脚本为例,讲解常用操作. 1.首先执行vi startWeblogic.sh,如果此时当前目录下没有这个文件,则会进行新建:如果有同名文件,将会读取改文件内容并显示. 2.进入vi编辑器后,初始时是命令模式,如果需要输入文本,可点击键盘上的i,a,r键(i=insert.a=append.

在ITemChanged事件中对数据窗口中的数据进行校验

作者:达通兴电脑科技公司(www.study01job.com) 郭宝利 对用户录入的数据进行校验,这是数据窗口控件本身就具备的功能.但是,我们希望做更多的处理,并且错误信息显示界面更友好一些.为此,我们编写一个全局函数,在数据窗口的ItemChanged事件中调用,并且使用MessageBox显示该函数返回的错误信息.另外,还需要在数据窗口的ItemError事件中return 1来阻止数据窗口本身的错误提示窗口的显示. 当然,对下面的函数进行扩充,可以加入对更多类型数据的校验,以及基于业务要