拥抱开源技术的前提——认识数据湖

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都逐渐深入人心,但“数据湖”仍然是让IT和业务相关者头疼的一件事情。

随着人们对于数据湖的清晰定义、使用案例、最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢?

1.定义及观点

数据湖成为了核心数据架构中发展得很快的一环,但IT专业人士常有疑惑,数据湖究竟是一个架构策略还是架构的目标呢?实际上并没有清晰的界限,但仍然有方法来解决定义的问题。数据湖是一个中央储存库,为多种数据工作负载储存企业数据;通过数据湖,终端架构可以得到解决,同时数据结构相关的决策也是建立数据湖时的关键。

数据湖被越来越多的采用,而它的实施分为四个关键的阶段:

技术评估。通过进行大数据实验项目,关注几个特定的业务目标和成果,数据湖的使用者可以对这项技术进行测试,并熟悉Apache Hadoop环境的管理。做出反应。在这个阶段,各公司开始利用Hadoop来解决现有架构的低效率问题,确立清晰可测的业务机会。此外,这个采纳过程对于IT效率的提高也是非常关键的。主动利用。通过为分析项目合并数据以及利用Hadoop获得经济的可拓展性这两种手段,各公司可以在一个单一的中央存储中管理大量新出现的数据源,例如物联网、社交媒体和非结构化的数据。建立核心竞争力。随着大数据成为IT战略的核心组成部分,各公司最终能够达到发展的高峰,消除所有业务应用和分析应用之间的隔阂,重新建立一个单一的企业平台。

2.数据湖的组织

得益于Hadoop的灵活性和可拓展性,我们今天能够保存、分类、探索并利用的数据类型比以往任何时候都要多。但避免数据湖成为数据沼泽的关键在于数据治理,数据的组织和安全性也是决定数据探索成败的关键。一个清晰而有条理的数据组织(通常是按类目或者按数据用法划分)能够帮助Hadoop工程师建立更加完善的技术决策,帮助分析师和数据科学家从数据中获取真正的洞察。

3.统一数据探索、数据科学和商务智能

对于企业BI需求、数据探索和数据科学的支持是推动数据湖部署的主要因素,这三项技术能将原始数据用于机器学习算法和统计功能。因为敏捷方法学为企业级BI提供了自适应途径,数据湖就能够落实更多具体的企业业务、性能指标和度量权值,同时可用于储存历史数据。

充满竞争的商业环境让人目不暇接,各公司必须认识到探索技术的关键作用,并认识到解答未知的重要性。这刺激了我们的需要,要把数据直接用于分析技术,产生意义重大的洞察、为企业创造附加价值。

4.成功的关键

要帮助企业从他们的数据湖中实现最大化效益,就必须要考虑以下几个要素:

从长远角度考虑数据。在开始一个数据项目时,必须仔细考虑数据在今后其他应用中的可重用性。要明白未来新产生的数据需求往往是不可预知的,了解这一点后公司就可以更好地相应准备并利用起他们的数据。先确立数据治理结构。数据治理被应用在了整个企业的数据和信息政策当中,所以在考虑数据湖时也不应该例外。数据治理规范了企业中的每个人对数据湖的使用,并最小化了发生错误和不当数据管理的可能性。预先解决安全问题。以数据为中心的安全保护提供了从整个数据的生命周期来看数据的宏大视角,此处的关键要素就是从第一天开始就正视安全问题,确立好哪些数据可以引入数据湖,并为数据湖中的各类数据制定使用权限。

尽管数据湖在大数据领域还是一个比较新的词汇,但它已经成为了企业级IT架构和整体数据战略的重要部分。数据湖战略拥有合理的架构,能够和数据科学以及成本低廉、拥有商业基础的机器学习分析完美结合。对于数据湖核心概念的了解能够帮助企业更好地利用并保护自己的数据,同时提高通过数据进行探索的能力。

本文转自d1net(转载)

时间: 2024-07-31 17:58:51

拥抱开源技术的前提——认识数据湖的相关文章

中国移动拥抱开源技术:建成全球最大的OpenStack云平台

在昨日举行的OpenStack China上,中国移动苏州研究院云计算产品部技术总监刘军卫表示,中国移动将在2016年底建成最大的OpenStack公有云平台:在今年5月,建成了全球最大的OpenStack私有云平台. 目前,中移动已建成最大的单集群OpenStack公有云生产环境 (单机房1000节点) ,其已经正式上线2个集群,共计2000个节点 (广州.北京) .到2016年底,建成最大的OpenStack公有云平台之一,完成4个集群共计6000个节点规模的公有云建设. 在今年5月份,中国

企业拥抱开源的4个理由

当开发者想到开源时,他们只会联想到"免费",而不会想到其他的方面了.因为一般情况下,人们不会太关注那些能够让他们免费使用且几乎没有任何许可限制的技术. 如今,当企业想到开源时,他们会立刻想到"业务灵活性".面对当今瞬息万变的市场,企业越来越重视"业务灵活性",并将其放在企业发展的首位. 相关IT业界人士表示,利用开源技术,能够快速.有效地开发出新的应用,同时还能节省成本,这使得许多大大小小的企业都开始拥抱开源技术,并不断地将开源技术应用到一些规模

微软为何钟情开源技术?

开源应用程序自动部署引擎Docker将在本周公布1.0版本,看似与开源软件势不两立的微软和Rackspace .IBM.谷歌.Canonical.Red Hat等公司一样,都是这款开源软件的功勋之臣.据ZDnet报道,Docker使用整合包(containers)替代虚拟机,能让多款应用程序同时在一个服务器上运行,让开发者和系统管理员轻松地部署分布式应用程序. 拥有丰富软件技术宝库的微软,为这款开源软件贡献了诸多微软技术,测试人员已经能在Linux虚拟机中运行预览版的Docker on Azur

数据湖:不治理便破产

在当今的数据架构中,治理已成为一个关键的组成部分.没有它,公司可能会失去有意义的商业智能. 当STEVE CRETNEY仔细查看存储数量时,他从中发现了颠覆Colony BrandsIT战略的细节. "我们观察到,在我们的SAN(存储区域网络)中,有几百TB的存储,"Colony Brands公司的CIO Cretney说,该直销零售商位于威斯康星州门罗. 其中的大部分,来源于操作系统,一部分会用于分析,但大多数则打包,成了闲置数据.相比之下,Colony Brand的数据仓库内只包含

认识数据湖——拥抱开源大数据技术的前提

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

Facebook开源技术CTO John Kenevey:Facebook开源数据中心

第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕.本次大会立足实践,以国际化的视野,帮助与会者了解全球云计算技术的发展趋势:从应用出发,探讨交通.医疗.教育.金融.制造.数字娱乐等行业领域的实践经验:并通过技术专场.产品发布和培训课程等方式,深度剖析云计算大数据的核心技术. Facebook公司开源技术CTO John Kenevey 在第六届中国云计算大会主体会议,最后一个演讲来自Facebook公司开源技术CTO John Kenevey,他为大家分享的主题是"Fa

联想创投大数据基于开源技术 助力全球智能制造

由中国开源软件推进联盟(COPU)主办的第十一届开源中国开源世界高峰论坛(简称论坛)于2016年6月24日-25日在京举办.这是我国开源界一年一度的嘉年华盛会,也是具有深远影响的国际学术论坛.论坛有力促进开源社区.企业.院校.科研机构.用户之间的相互交流与合作,推动开源软件在中国及全球的发展.联想创投集团大数据业务在此次高峰论坛上展示了联想大数据平台如何协助企业应对全球化挑战和复杂的开源技术,探索出一条制造企业全球大数据方案之路,并运用开源大数据技术助力全球智能制造.联想集团副总裁.首席研究员田

拥抱开源 DevOps引领大数据生态系统

为了开展开源战略,基于大数据生态系统组件的应用程序必须加强,才能在生产中运行. DevOps可能是其中的重要组成部分. 用户一直希望减少对供应商的依赖.但是,当他们了解当今大数据生态系统的复杂环境时,他们至少在某种程度上将承担一定的责任. 新风格的数据工程要求对DevOps进行整体的调整,这就是敏捷性方法的扩展,需要开发人员对创新应用在生产中的表现承担更多的责任.同时,工程师需要以更快的速度学习新的软件. 许多早期采用者不得不创建基于MapReduce的Hadoop应用程序,只能使用Spark处

【资料合集】阿里巴巴开源技术汇总——内含115个软件与100+技术文档、PDF下载

开源是孵化新技术领域的容器,开源是技术演进的强大推动力.多年来,阿里巴巴集团一直积极拥抱开源事业,无论是开源软件的应用.回馈以至自研技术的开源都非常活跃. 为了更好地让开发者们深入了解阿里开源,本文对社区内发布过的开源技术精品内容做了一次大汇总,包括115个阿里巴巴开源技术.阿里巴巴73款开源产品全向图.首届阿里开源峰会PDF+活动视频回顾等等. 阿里巴巴73款开源产品全向图 2016阿里巴巴73款开源产品全向图(9月制)点击图片可下载大图. 2016阿里巴巴73款开源产品全向图详细介绍 "阿里