Hadoop工具引发的改变和提升:让数据仓库迁移更轻松

从高成本数据仓库将任务卸载有时被看做是Hadoop商用集群的首要目标。迁移提取、转换、加载(ETL)、查询以及报告工作并不能显著改变商业模式,但它可能会抑制数据仓库的增长和成本。

但是,即便进入Hadoop时代已经有些年头了,将任务迁移至分布式平台并非易事。能够找出哪些任务在不给大量开发人员带来麻烦的情况下进行迁移,有助于数据管理人员做出最佳选择。

一款来自Cloudera公司的Hadoop工具Navigator Optimizer可能是个不错的选择。它源于该公司在2015年收购的Xplain.io,这家公司试图将某些与SQL类似的数据库优化功能引入Hadoop。该产品于今夏开始正式供应。

“该工具可以让人们查看那些正在其他平台上运行的查询,并可以查看它们将会如何在我们的Hadoop环境中表现,” Conversant的一名软件工程经理Peter Wojciechowski说,而Conversant是一家数字营销公司,它通过对大量数据的处理来呈现个性化的广告。

Conversant在查询中的表现

Conversant最初是将Hadoop用作数据的第一着陆点,之后通过Pivotal Greenplum数据仓库进行处理以用于分析。团队使用Navigator已经能够将某些任务迁移至Hadoop和Apache Hive数据仓库以及Impala SQL查询环境。

“如今,核心的ETL和某些大型处理工作是在一个Hadoop集群上进行的,”Wojciechowski说,高度迭代的处理工作对于Hadoop来说是不错的目标,但Greenplum并未被取代。在他的公司里,Greenplum仍担当着重要的分析责任。但现在,其使用则更为精炼。

Wojciechowski说,“以前,Greenplum负责了所有的工作负载,但并不是所有工作负载都与其契合。现在,有了该工具,我们就能更加游刃有余,例如,我们可以判断什么才是适合在Hive中运行的。”

通过使用Optimizer,Wojciechowski和他的团队能够说出在Hive和Impla中查询将会如何更好的执行,这就如同是接受在新环境中查询是如何执行的指导是一样的。Hadoop工具在生产中还有着进一步的应用。Optimizer与Navigator协同工作会帮助你判断如何将工作负载查询进行分组,这样就能发现更多的重复并更有效的对集群进行利用,”他说。

像Navigator Optimizer之类的技术有助于揭示数据连接,这是一个SQL常见的特性,而它会对Hadoop造成阻碍,451 Research的分析师James Curtis如是说。“Navigator会在将任务迁移至Impala或Hive之前对已有工作进行分析,并对需要重做的连接数量进行估计,”他说。

对于该工具在任务迁移中的作用他表示认同,但他强调对查询的优化远比仅用于迁移有着更广泛的使用。“对于那些拥有数以千计查询的公司来说,优化查询并不是琐碎的工作,”Curtis说。

改变和提升

像Cloudera Navigator套件之类产品的可用性可以覆盖包括所有最困难迁移任务中的一项:即将主框架数据迁移至Hadoop生态系统。

为此,主框架和Hadoop数据转换公司Syncsort表示,它正在和Cloudera合作,通过将Navigator连接至其工具来追踪传统来源的数据沿袭以改善数据治理。这些传统来源不仅限于主框架,而是包括运行在中端系统上的数据仓库。

对于将关系型数据仓库任务迁移至Hadoop来说,Cloudera并不是可以提供工具唯一厂商,这一领域是十分活跃的。

对于他们来说,独立的Hadoop分销竞争对手Hortonworks和MapR Technologies Inc.会提供相关的Hadoop工具,包括基于Apache Calcite的SQL优化工具,而Apache Calcite是一款包括了一个SQL解析器和查询规划器的开源项目,而它刚刚迎来它的第一个生日。

而且,数据管理服务公司Bitwise最近推出了Hydrograph,这是一款旨在简化卸载ETL工作负载到Hadoop和其他大数据框架的工具。Bitwise的软件是与客户Capital One一起开发的,它基于的开发环境使用了XML接口,因此任务可以迁移至不同的Hadoop框架,例如从MapReduce到Tez,只需要少量重新配置。

如果这些Hadoop工具能够让迁移设计更上一层楼并不断探索试错,则会改善对Hadoop的提升。对于企业中Hadoop和它的生态系统组件来说,在平台上高效地获取数据仓库工作仍是一项重要步骤。

本文作者:佚名

来源:51CTO

时间: 2024-08-22 05:28:54

Hadoop工具引发的改变和提升:让数据仓库迁移更轻松的相关文章

Hadoop工具让数据仓库迁移更轻松

从高成本数据仓库将任务卸载有时被看做是Hadoop商用集群的首要目标.迁移提取.转换.加载(ETL).查询以及报告工作并不能显著改变商业模式,但它可能会抑制数据仓库的增长和成本. 但是,即便进入Hadoop时代已经有些年头了,将任务迁移至分布式平台并非易事.能够找出哪些任务在不给大量开发人员带来麻烦的情况下进行迁移,有助于数据管理人员做出最佳选择. 一款来自Cloudera公司的Hadoop工具Navigator Optimizer可能是个不错的选择.它源于该公司在2015年收购的Xplain.

十八款Hadoop工具帮你驯服大数据作业

文章讲的是十八款Hadoop工具帮你驯服大数据作业,Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道.这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来.有些项目负责数据管理.有些负责流程监控.还有一些则提供先进的数据存储机制. Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持.在托管集群中提供按时租用服务.为这套开源核心开发先进的功能强化或者将自有工具添加

十八款Hadoop工具帮你驯服大数据

Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道.这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来.有些项目负责数据管理.有些负责流程监控.还有一些则提供先进的数据存储机制. Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持.在托管集群中提供按时租用服务.为这套开源核心开发先进的功能强化或者将自有工具添加到方案组合当中. 在今天的文章中,我们将一同了解当下

Hadoop工具降低分布式计算环境复杂度

问:最近一段时间,包括Pentaho.Actuate.http://www.aliyun.com/zixun/aggregation/13432.html">Tableau.EMC.SAS.Jaspersoft 以及Birst等许多厂商都开始提供Hadoop工具.但是目前公司中懂Hadoop的人很少,厂商说他们的工具都有不错的易用性,即使Hadoop知识储备不足的用户也可以使用.请问这样的情况是真的吗? 答:Hadoop是用Java编写的,采用分布式计算范式作为平台.目前为止,使用Hado

美国推出的相关在线服务工具引发网友关注

美国推出的相关在线服务工具引发http://www.aliyun.com/zixun/aggregation/3640.html">网友关注 美国驻华大使馆的官方微博又被围观了.近日,其发布消息称,白宫网站提供了一个小工具,只要输入纳税额,就能显示这些钱都被花在了哪些地方,吸引了不少国内网民的目光.这个在美国年度纳税截止日(每年4月15日)前推出的"小工具",据称是美国总统奥巴马为履行承诺而推出的.此前,他曾承诺要让该国纳税人上网就能知道所缴纳的联邦税都花在了什么地方.

Hadoop工具如何形成SAP Hana的大数据平台

自2008年以来,SAP Hana一直是领先的数据库管理系统之一.它比许多其他数据库管理解决方案能够更有效地处理数据,主要是因为它可以使用一些最先进的Hadoop工具.没有Hadoop,大多数SAP Hana数据库将是相对无用的.访问大多数数据集将是困难的,特别是在它们存储原始数据的时候. 为什么Hadoop是SAP Hana的骨干 迈克尔·考克斯和戴维·埃尔斯沃斯在1997年发表的"数据可视化应用控制需求调查"一文中提出了大数据这一术语.然而,大数据的应用直到最近才变得真正可行. 这

Intel:处理器性能提升不给力是因为更重效能

虽然Tick-Tock升级周期变长了,但Intel大体上还是保持了每年推出新一代处理器的节奏,但在频繁更换LGA接口及架构之外,大家对Intel处理器每次乏善可陈的性能提升都没什么兴奋了,哪怕是四五年前的SNB处理器现在都可以再战三年.为什么出现这个问题?之前大家调侃说这是因为AMD不给力,Intel没动力升级,但Intel心里其实也有苦说不出,这几年处理器发展明显是重效能超过了重性能,背后则是摩尔定律逐渐失效,不太可能每次都大幅提升性能了.Intel公司是摩尔定律的提出者,也是摩尔定律50年来

不做IT民工 网站优化善于结合工具更轻松

每当听到别人问起网站优化是做什么的?轻不轻松?有没有前途之类的问题时,笔者也不知道怎么去回答,如果从站长的角度去答的话,网站优化就是IT民工,IT民工肯定不会轻松的,前途也是有的,但是更多的则是给互联网制造垃圾,推广广告满天飞.很多人看到网站优化不就是发发外链.更新内容就能赚钱了.其实这只是外行人的看法而已,在站长界里,网站优化其实跟IT民工一样,每天早起晚睡的就为了发外链,有的甚至是每天对着电脑工作个十几小时的站长大有人在.是不是天天呆在电脑前时间越长,网站优化才会有效果,排名才会好呢?笔者告

云到端技术的创新正在改变和提升中国制造

作为制造业大国,也是互联网大国,我国互联网与制造业融合空间广阔,潜力巨大.实施"互联网+"行动计划,推进互联网和制造业融合深度发展,是建设制造强国的关键. "互联网+"正在成为云计算.大数据.物联网.移动终端等现代信息技术与传统行业深度融合的代名词,这种融合不仅在推动着企业的业务流程重构和商业模式创新,甚至在促生新的发展生态.传统的制造.能源.医疗.交通等行业借助现代信息技术的产业转型,正在迎来新的创新发展机遇. 2015年12月,工信部提出并制定了"互联