如果大数据是原油,那么数据虚拟化就是炼油厂

大数据就像是一个从现代数据景观中涌现出来的丰富的自然资源。物联网(传感器),移动设备,社交网络,点击流,网络和开放数据是人们今天目睹的数据激增的重要因素。根据调研机构IDC和硬盘厂商Seagate公司最近合作进行的一项研究显示,到2025年,全球数据预计将增长十倍,将达到163 ZB。

数据丰富,但不一定有用,因为其是以原始,没有提炼的形式存在。与任何自然资源一样,“粗”数据必须先进行细化,才能用于生产目的,如设备维护,产品创新,竞争情报,市场营销,数据货币化,以及积极的医疗保健。其细化过程可以纳入数据探索,准备,关联和背景化,标注和注释,统一和整合,以及安全和治理政策的应用。元数据也是一个重要的组成部分,因为它在整体数据细化过程的输入和输出阶段起着重要的作用。

数据分析有助于得出无偏见的结论、准确的预测和有见地的决策,这取决于数据的准确性。如果尚未提供分析资料,数据可能会受到碎片,标签和信息丢失的困扰。这些特征在电子健康记录(EHR)中是显而易见的,它们说明了数据精华的挑战。收集和分析EHR数据的障碍是缺乏适当标签和一致语义。

电子健康记录(EHR)主要旨在满足患者护理,行政和财务需求。目前尚未考虑数据分析的EHRs的多用途目标可能会造成数据碎片化,需要在将数据提供给临床研究之前进行分析。

从共享患者健康记录中构建数据集的另一个挑战是,如何在保健机构之间甚至在同一个保健系统内部共享电子病历。例如,同一所医院的不同部门(例如放射科,整形外科医师和内科医生)可以使用不同的EHR来满足其独特的数据输入要求,文档和订购需求,以及偏好,从而创建数据孤岛。

数据安全和隐私也可能是分析监管数据的障碍,例如电子健康记录(EHR)中的数据。克服这一障碍的最佳方法是在精炼过程中应用适当的安全和治理措施。谷歌等公司正在尝试联合学习,努力提高分析能力,同时确保人们的隐私安全。

数据细化对于从数据分析中获得可靠的结果是至关重要的,包括有意义的结论,准确的预测和明智的决策。在理想情况下,精炼原始数据以产生完整和有意义的信息的过程如下:

•建立相关语义

•处理数据异常

•建立完整,全面的数据视角

•丰富下游流程的元数据

•处理数据保护,隐私和合规要求

数据虚拟化作为数据精炼厂有以下三大优势:

(1)炼油厂规模

现代分析依赖于无数分散的数据源的数据。经验告诉人们,当数据分布在多个系统时,大数据源并不总是能够复制和重新定位。数据虚拟化提供了大规模的数据源,通过提供替代范例:将数据处理移至数据。换句话说,处理其驻留的数据,并最大限度地减少网络流量。

数据虚拟化带来数据精化所需的速度和规模,无需复制或重新配置数据源。它使用逻辑数据架构,使所有底层数据源显示为单个系统。它提供多种优化策略(例如,特定于平台的优化和下推处理),智能选择一个特定的优化,以及诸如MPP内存中处理的预构建优化库。

(2)负责任的数据共享

①数据隐私设计

由于文化和法律障碍,往往阻碍数据共享,而数据共享已成为大数据分析的主要组成部分。数据隐私法规是令人信服的组织在新项目的每个设计和实施阶段,都要纳入或以其他方式充分考虑数据隐私的。数据虚拟化采用一种中心的方式,降低了遵从日益增多的主动数据隐私规则的成本,并允许通过设计包含数据隐私。

数据虚拟化的核心功能是使分布式数据保持在源头,同时通过单一逻辑层将其暴露给消费者。这种方法不需要持续的数据复制。更少的复制就可以减少组织对个人和敏感数据的拷贝,减少数据安全和治理的问题。

数据虚拟化还使组织能够轻松创建来自整个组织的数据(例如风险数据)的聚合一致的视图。如图1所示,这些视图可以有选择地共享,同时完全遵守组织的数据访问和隐私策略。


图1坚持数据访问和隐私政策

②克服信息共享的挑战

数据虚拟化克服了以下主要的信息共享挑战:

•不同的数据源。使用数据虚拟化,数据可以快速轻松地集成到无数的内部和外部系统中。

•不同的数据格式。数据虚拟化可以使用不同的技术和协议连接到不同格式的数据。这些复杂性被用户和应用程序所隐藏。

•不同的数据标准。使用查找表或内存映射,数据虚拟化可以集成数据,即使它来自不同的标准。

•不完整的数据。数据虚拟化允许将数据汇集在一起,以实现整体的视图。

•未处理的数据。对聚合数据执行的数据计算(与局部孤立的数据相反)可以提供整个组织的风险的完整视图。

•敏感数据。数据虚拟化提供安全和隐私功能,以便用户只看到允许查看的数据。

(3)通用语义模型

业务用户的规模各不相同。了解他们是谁(例如数据分析师,电力用户,管理人员或机器)及其所需的数据(例如,预先聚合,预先计算,特定粒度,角色特定或域特定)是必须的。对于特定的机器,正确标记的数据集对于有效的机器学习是至关重要的。在为分析提供数据时,使用业务用户理解的语言也是很重要的。例如账户对于财务中的用户是合适的,而客户则是客户关心的用户的首选项。它支持多个语义,避免强迫用户改变术语本质。


图2支持不同的信息粒度

由数据虚拟化提供的通用语义模型为整个组织提供了一个通用一致的数据视图。由于不嵌入单个业务智能(BI)工具,语义模型对多个BI工具是通用的,几乎可以访问任何数据源。

数据虚拟化在实现自助服务分析方面实现了以下目标:

•可以快速轻松地构建灵活的语义模型

•提供带有护栏的自助服务平台

•支持“数据牛仔”(限制)和常规业务用户

•加快自我服务举措(消除分析孤岛),同时保持控制和治理

提供完备的、可信的、高质量的信息对于决策以及预测性和规定性分析是至关重要的。数据虚拟化是一种理想的技术,可以满足那些努力使用数据作为战略资产的组织的需要。

本文转自d1net(转载)

时间: 2024-08-22 01:32:08

如果大数据是原油,那么数据虚拟化就是炼油厂的相关文章

大数据不止是统计数据那么简单!

统计无时不在,从结绳记事到今天的大数据,统计作为人们认识客观世界的工具,也在不断创新,统计学作为一门系统研究数据的学科,在不断丰富与完善.大数据时代来临,统计如何应对新的挑战与机遇?我们回顾历史,不忘初心,以开放的态度.创新的精神和不懈的努力,继续前进,让统计在大数据的舞台上,发挥更大的作用. 普遍的定义认为,统计学是关于数据的科学,研究如何收集数据,并科学地推断总体特征.普查作为最古老的数据收集方法,已经有数千年的历史,据记载,2200多年前的西汉时期,中国开展了第一次人口普查.17世纪中叶,

对话思科:大数据不是云计算数据的唯一形式

在5月8日的"聚云势,领变革"微访谈中,谈到云计算在小微企业的应用,思科中国区两位副总裁张力.苏哲回复IT专家网记者的提问时表示,很多传统行业的小微企业 借助IT信息化提高生产力的意识和能力不足,国内可为小微企业提供服务的云服务提供商和服务种类不足. 苏哲.张力还谈到了云架构.云安全.虚拟化.网络.移动互联.大数据.BYOD等技术问题. 小企业与云计算 目前,随着国内原材料价格.人工成本的上涨以及汇率.银根收紧.资金成本上升等因素,国内中小企业的生存困境再次凸显.各种新兴的IT技术手段

为您的数据中心选择合适的虚拟化基础设施

虚拟化正迅速成为数据中心设计的最佳实践方案,让您企业组织能够灵活的调整IT资源,来满足业务需求的变化.而一旦您已经接受了虚拟化是不可避免的这一理念,您企业数据中心将如何进行虚拟化的部署实施呢?在本文中,克里夫·萨兰将为您提供相关的建议. 数据中心最佳设计实践方案的调查显示,企业数据中心应该尽可能多的将其IT基础设施实施虚拟化.这样做可以提高灵活性,使其IT部门能够灵活的配置资源,以满足业务的需求. 当企业组织部署实施虚拟化时,其IT部门有一个选择:采用大量x86服务器来运行虚拟机以推出一款横向扩

线程-如何将存储量很大的txt文档数据导入到hbase当中

问题描述 如何将存储量很大的txt文档数据导入到hbase当中 我现在要写一个程序,将第三方导出的txt文件内容读取并放到hbase当中. 由于txt文档非常大(超过10G),我初步思路是通过单线程读取到一个线程安全的容器当中,然后再利用多线程向hbase中写入. 请问有没有什么更好的思路,谢谢! 解决方案 方案一: 1.在Linux环境利用split命令把文件分块: 2.多线程对多文件读取写入HBase 方案二: 1.要看文件的格式是怎么样的,你想存HBase的格式怎样的 2.把文件按照格式分

大数据时代 你的数据属于谁?

在这个所谓的DT(数据科技)时代,数据的价值正在为人所知,由此而来的个人信息泄露事件也层出不穷.然而,当人们将矛头指向黑客入侵系统漏洞.撞库拖库等,却忽略了掌握数据源的互联网企业. 记者调查:诸多网站默认可以转让你的信息个人数据至今无法确权 在这个所谓的DT(数据科技)时代,数据的价值正在为人所知,由此而来的个人信息泄露事件也层出不穷.然而,当人们将矛头指向黑客入侵系统漏洞.撞库拖库等,却忽略了掌握数据源的互联网企业. <IT时报>记者在调查中发现,数据价值虽已传递到产业链的各个环节,但数据交

你需要的不是大数据 而是正确的数据~

本文讲的是你需要的不是大数据 而是正确的数据~[IT168 编译]"大数据"这个术语是无处不在的.无论是大企业还是小企业,新兴企业抑或是传统企业,都正在参与着这个"游戏".海量的用户数据正在被各个网站大规模收集利用,有的公司为了能与客户交流,甚至不惜利用庞大的文本交流数据建立算法. 但实际上,我们对大数据的痴迷,往往也会产生误导.是的,在某些情况下,从数据中确实能够获取到有价值的东西,但其实数据的大小并不是最关键的因素,找到正确的数据才是关键. 无关乎数据的大或小

求大神看下边json数据是不是有问题,万分感谢!!!

问题描述 求大神看下边json数据是不是有问题,万分感谢!!! http://a.yx.minfuzx.com/zhinan/0/1 不要用工具格式化.... 解决方案 你是客户端json类库用还是服务器端反序列用的?客户端json类库多那个逗号除非用IE7-浏览器,其他浏览器多那个逗号也没有问题. 直接replace掉就行, ] } } ==>] } } 如果存在多个,需要用正则 s*,\s*] ==> ] 解决方案二: 最后的"http://m.yxjiakao.com/zhin

在阿里召集的数据群英会上,数据先锋们都怎么看“大数据”?

2014年3月7日,阿里巴巴对外开放的数据峰会"2014西湖品学大数据峰会"在杭州召开.会上,阿里巴巴方面披露了目前该公司的数据储存情况. 目前在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据,等于104857600个GB,相当于4万个西雅图中央图书馆,580亿本藏书.仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影.而如果将你代入成服务器,你处理的数据量则相当于每秒钟看上837集的<来自星星的你>. 目前全球仅有两三家公司计

大数据时代的小数据

现在好像人人都爱说"大数据",就像平时我去开会,不是用大数据分析这个,就是用大数据建构那个.可是我最近看<美国计算机学会通讯>(CACM)上面提到了几次小数据,我觉得大家也有必要了解一下这个有趣的概念. 什么是小数据?小数据就是个体化的数据,是我们每个个体的数字化信息.比如我天天都喝一两酒,突然有天喝完酒了胃疼,我就想了,这天和之前有何不同?原来,这天喝的酒是个新牌子,可能就是喝了这个新牌子的酒让我胃疼.这就是我生活中的"小数据",它不比大数据那样浩瀚繁