探讨企业数据架构战略和数据湖的可能性和必要性

现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。

现今的CIO们,在整合企业数据架构 中日益增长的各方面需求时,面临着两大挑战。首先,是将现有的支持运行应用程序的数据系统, 与分析师和数据科学家越来越多的信息需求之间相匹配。其次,是管理持续不断的,创新的数据管理功能 (比如Hadoop或NoSQL)在企业内部的集成。CIO的职责就是完成这一数据集成,提高数据的可访问性,同时降低系统的整体复杂性。

然 而,大多数企业的数据架构,随着时间的推移,通常在缺少预定义的数据架构战略的情况下,自我进化。相应地,这些企业在能够使用统一的方法访问企业数据资产 方面,遇到不断增加的复杂性问题。随着数据管理创新的速度加快,新技术如Hadoop,NoSQL和图形数据库正在计划和引入,也增加了数据使用者对于数 据领域复杂性的担忧。

数据湖领域

比较突出的一个例子就是数据湖概念的出现,根据定 义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的 业务目的使用这些数据。 数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

和传统的数 据采集和数据获取方法相比,数据湖从根本上采取了不同的方法。传统方法旨在使数据符合预定义的数据模型, 从而创建一个统一的数据资产,让所有的数据使用者共享。将数据规范定义到单一格式,这种方法,称为schema-on-write,可以限制下游使用者分 析数据的方式。在数据湖中存储数据的方式则被称为schema-on-read,意为没有预定义的数据存储方式的限制,而是由使用者根据各自的需求,定义 访问数据的方式。

数据湖带来了一些挑战,尤其是对于那些习惯使用自己的数据集副本进行报告和分析的下游数据使用者。首先,必须有一种方便获取数据湖中数据的方式,其次,必须有一个方法配置被访问的数据,以一种用户习惯的模型呈现。

在数据架构战略中使用虚拟化工具

新的企业数据架构战略所面临的这些挑战,都可以通过使用数据虚拟化工具得以解决。数据虚拟化和联邦工具在一组数据源和不同的数据使用者之间提供了一个抽象 层。 面向数据的工具被称为数据联邦。 这种技术提供了访问各种数据源类型的方案,包括大多数关系数据库系统,前代存储系统(比如,flat files,VSAM文件和其他主机存储方式),以及各类新兴技术,如Hadoop和NoSQL。数据联邦工具使应用程序能够透明地查询分布在多个存储平 台的数据,同时隐藏数据源位置,或数据格式的详细信息。而面向使用者的工具通常被称为数据虚拟化。这一技术允许数据使用者定义逻辑语义数据模型,然后映射 到每个联邦数据源的模型。这一语义模型提供了抽象层,简化了数据使用者的可访问性。用户对语义模型的查询被转换为每个联邦数据源的一系列自定义查询集。 当这些查询的结果集返回到数据虚拟化工具时,这些中间结果会被收集,整理和配置成一个最终的结果集返回给用户。实际上,数据虚拟化工具通过面向使用者的数 据实体化规则,简化了将来自多个源的数据相融合的技术。

在定义语义模型中使用数据虚拟化工具,解决了访问数据湖中数据的两大问题。对数据 湖的数据进行联邦访问,不需要用户改写他们的应用程序,从而包含从数据湖读取数据的代码,同时降低了数据复制的需求。现有的应用程序可以连接语义模型,使 数据源对于使用者的应用程序变得透明。同时,数据虚拟化会隐藏schema-on-read的复杂性,使每个用户都能够将特定的数据规范化和数据转换规则 应用于数据,从而适用于每个应用程序。

数据虚拟化和数据联邦是支持企业数据架构战略(包括大数据)的桥接技术。这些工具降低了开发和运营 的成本,通过(低成本)数据湖的使用,降低复制数据集的存储需求。它们还为大多数平台提供了一个无缝的可访问性,随着新技术的不断采用,延伸了传统平台的 生命周期。 数据虚拟化工具,通过使用内部软件的缓存,查询最优化,流水线数据流,和压缩存储,从而简化了环境数据的可访问性,避免了显著的性能退化。这些工具还为引 入从大量快速兴起的数据源中提取和分析信息的创新技术铺平了道路。

原文发布时间为:2015年9月15日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-15 10:12:53

探讨企业数据架构战略和数据湖的可能性和必要性的相关文章

Teradata“统一数据架构”引领企业大数据应用体系

ZDNET至顶网CIO与应用频道 11月17日 人物访谈(文/王聪彬):现如今,数据已经被认定为重要的企业资产,可以帮助企业体现商业价值,也就是实现常说的数据驱动业务.而就在刚刚结束的2014年 Teradata Partners全球用户大会上,Teradata天睿公司国际集团总裁赫尔曼威摩(Hermann Wimmer)从全球客户的交流中得到了一致的反馈,就是大数据已经逐步变成现实.但大数据的出现其实只是开端,还需将结构化数据和非结构化数据进行结合,充分挖掘大数据的价值,而通过统一数据架构可以

微软张亚勤:任何企业都必须要有大数据战略

在2013中国(深圳)IT领袖峰会上,微软亚太研发集团董事长张亚勤谈了他对大数据的看法,他认为,大数据至关重要,任何企业都必须要有大数据战略,否则,公司在未来竞争中就会处于不利的位置. 以下是访谈实录: 网易科技:张总,你好,你是我们的老朋友了.今天有很多嘉宾跟我们谈到今年的话题都是大数据,你怎么看?微软有什么样的布局? 张亚勤:大数据不是新的东西,我们从事这方面的研究和研究这方面的产品已经很多年了,为什么大数据变成这么热的话题?第一点是三个"v":数据量越来越大.数据种类越来越多.速

伪数据科学家 VS 真数据科学家

如今数据科学书籍.认证和文凭,如雨后春笋般层出不穷.但许多仅仅是镜花水月:许多人钻了这一新名词的空子,将旧酒(比如统计学和R编程)放在了"数据科学"这个新瓶里. 本文选自<数据天才:数据科学家修炼之道>. R语言编程跟伪数据科学为何扯上了关系? R是一种有20多年历史的开源统计编程语言及编译环境,是商业化产品S+的后继者.R一直以来都局限于内存数据处理,在统计圈子里非常流行,并因其出色的可视化效果为人称道.一些新型的开发环境通过创建R程序包或者将其扩展到分布式架构里(比如将

如何构建下一代大数据架构——数据湖

如何创建一个适用于多样数据类型,并可扩展的敏捷数据平台?答案就在数据湖中! 图片源于网络 技术和软件的进步使我们能够处理和分析大量数据.虽然很明显,大数据是一个企业投入了大量资金的热门话题,但要注意,除了考虑数据规模,我们还需要考虑到被分析数据类型的多样性.数据种类不同意味着数据集可以存储在许多格式和存储系统中,每个类型都有自己的特征. 考虑数据多样性是一项艰巨的任务,但有一种方法可以使你360度全面了解你的客户,提供商和运营商.为了实现这种方法,我们需要实现下一代大数据架构.接下来,我们来看一

《智能数据时代:企业大数据战略与实战》一第2章 数据的艺术2.1 评估可能性的艺术

第2章 数据的艺术 2.1 评估可能性的艺术 害怕落后是向前发展的强大动力.在今天,很多组织都致力于构建大数据和物联网,仅仅因为他们担心自己的竞争对手已经开始进行这项工作.利用差异化解决方案进入市场,吸引风险资本家的投资,是这些公司的共同目标.很多公司创业失败了,但是有些公司却在新兴市场中发展起来,甚至对部分成熟公司构成威胁.而成熟公司的CEO和高层们没有忘记在早期的市场上利用新型解决方案获得的巨大利益. 许多这样的组织开始把发展的核心集中到事实问题而不是过去的经验以及直觉方面.数据开始成为企业

郑保卫:传统企业大数据应用的数据架构

文章讲的是郑保卫:传统企业大数据应用的数据架构,2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕.在为期三天的会议中,大会将围绕大数据应用.数据架构.数据管理.传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享.本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据.数据结构.数据治理与分析.商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要. ▲点击进入第五届中国数据库技术大会(DTC

企业高管必须了解什么样的数据中心战略

毫无疑问,数据中心现在是企业业务的核心组成部分.整个业务功能都是建立在数据中心内部IT解决方案的能力建设之上.这就是为什么企业在选择正确的数据中心战略时,比以往任何时候都更重要的原因.企业需要考虑一些关键因素: ·成本与风险 ·云计算或私有托管的作用 ·建设与购买 ·对网络和整体基础设施安全的影响 ·如何降低风险与责任 请记住,数据中心可以帮助组织保持灵活性,适应市场需求.在下个月召开的数据中心世界大会上,BRUNS-PAK首席工程师马克·伊万科将在会上阐述企业董事会成员和高级管理人员应该考虑到

ELS大数据整合:出击企业基础架构困局

今天,IBM(NYSE:IBM)在北京召开了主题为"大数据危机 大整合出击"IBM ELS大数据策略媒体发布会,阐述ELS 在大数据时代的全新策略,旨在帮助企业用户抓住大数据带来的机遇,应对大数据给基础架构带来的压力和挑战.基于主机架构的企业级Linux服务器(Enterprise Linux Server),以其高效性能.灵活扩展.运行稳定.支持异构环境等优势,不仅在关键业务应用领域发挥着无可替代的优势,同时能够帮助用户实现异构环境大规模数据整合,全方位的优势使其成为最全面的企业级大

企业必须考虑的关于大数据架构的6大问题

在拉斯维加斯举行的Dell EMC World 2017大会上,戴尔EMC系统工程师Cory Minton解释了IT领导者如何更好地思考其大数据部署. 大数据在业务价值方面承诺了很多,但企业可能难以确定如何部署需要利用的架构和工具. 从描述性统计,到预测建模,到人工智能的一切都是由大数据提供支持.而组织希望通过大数据来实现这一目标,并将决定其需要推出的工具. 在5月8日召开的2017年戴尔EMC世界会议上,戴尔EMC数据分析的主要系统工程师Cory Minton发表了演示文稿,解释了组织在部署大