EMC升级Greenplum 4.2 实现Hadoop处理

本文讲的是EMC升级Greenplum 4.2 实现Hadoop处理,大数据的问题不仅是因为它很大,还因为它一直在膨胀。比起传统的数据仓库,它需要更现代的Hadoop MapReduce 数据处理。EMC最近更新了自己的Greenplum数据库,使其能够更容易地处理大数据。

  如前一代,Greenplum数据库有两种形式:一个运行在Greenplum自己的硬件设备上(基于未指定的OEM伙伴的硬件),另一个是纯软件的发行版,客户能够在任何X86服务器上运行,支持Red Hat Enterprise Linux、Oracle Solaris或者Apple OS X.

  Greenplum数据库是开源PostgreSQL数据库的并行且高度定制化版本,经过优化用于特定的查询,而不是事务处理。它是一个大规模的并行无分享的数据库,并有“多形态数据存储”,使数据库管理员可以做出一系列的数据库表和选择数据的行或列的定位查询,用于查询哪些数据、执行或压缩设置,应适用于此数据段。

  像别的数据仓库引擎,Greenplum数据库是数据压缩的重量级用户,用于加速查询和减少磁盘存储容量需求。

  Greenplum的Hadoop发行版同样也可以应用在相同的硬件设备上(进行适当调整),以及一个可以运行在任何基于Linux的x86服务器上的纯软件产品。

  去年12月,Greenplum公布了它的长远计划,混合它的数据仓库和Hadoop堆栈以创建一个大型的数据处理器,称做Unified Analytics Platform统一分析平台。

  EMC对Greenplum数据库4.2做了一些调整。第一,像他去年12月份说的,Greenplum已调整它的并行数据仓库加载技术gNET,所以它可以从数据仓库到Hadoop集群并行导入或者导出数据。

  同样重要的是发布的4.2版本gNET 功能中的关系数据库,允许gNET到达Hadoop集群,询问数据的位置,使用一些Hadoop集群的资源,而不是增加数据仓库设备的运行负担。

  Greenplum产品营销高级总监Mike Maxey解释道:“以前这是只读工具,现在在Hadoop中做更多的数据处理。”

  Greenplum数据库4.2也包括新的管理控制台称为Command Center,替代很多数据库管理员至今还在使用的旧工具PerfMon。Maxey表示,Command Center不像PerfMon,它是基于Web的工具,有数据库管理员需要的更多功能,例如启动、停止和优化运行的数据库、恢复和调整数据库镜像,在系统上进行搜索、分区或者取消询问。

  Command Center也可以跨越网络进入Greenplum HD或者MR Hadoop集群,通过控制台内部检查集群状态。Maxey表示:“随着时间的推移,Command Center将更广泛更深入地覆盖数据库和Hadoop平台。”

  Command Center的最初版本可用于Data Computing Appliance 1.2系统中,最终作为纯软件发行版提供给客户。

  该数据库的4.2版本调整了必备的性能,包括动态分区消除和查询内存优化。这个数据库还有新的管理包,在包括多个节点和不同功能的系统上,对数据库进行自动安装和升级扩展。

  最后,EMC在Greenplum Database 4.2中添加了Data Domain Boost重复数据删除备份软件。在基准测试中,EMC能够在不到8小时的时间内备份173TB的数据仓库。这是通过将部分Data Domain重复数据删除操作分配到该设备中的多个数据仓库节点中实现的,因为重复数据删除速度提高了,所以进行大规模任务的并行化以及更快地备份。

  除了发布新的数据库之外,Greenplum还强调,Greenplum MR Hadoop可运行在思科C系列机架式服务器之上。

作者: 佚名

来源: IT168

原文标题:EMC升级Greenplum 4.2 实现Hadoop处理

时间: 2024-12-03 17:24:20

EMC升级Greenplum 4.2 实现Hadoop处理的相关文章

EMC Isilon储存方案重大升级为资料湖提供Hadoop分析功能

EMC公司今日宣布EMCIsilon OneFS的重大升级,并推出新款Isilon平台与解决方案,强化业界首款企业级横向扩充资料湖(Data Lake).新产品与功能,包括对HDFS的不间断支援,将协助客户大幅提升撷取.储存.保护.以及管理超大量的非结构化资料的能力.透过在资料湖中运用HDFS,EMC让客户将Hadoop运用在巨量资料,而不是在巨量资料运用Hadoop,因此能避免在移动数以petabytes寄的资料所耗费的时间和成本. 由于资料湖具有高扩充性的储存库,能接纳从传统与新一代作业负载

EMC升级Celerra 支持闪存及重复数据删除

       WatchStor独家译文]虽然在上周接受采访时,EMC公司存储部门总裁David A.Donatelli就表示EMC近期将发布大量新品,但直到美国时间上周末,EMC才正式发布了其升级Celerra系列中端盘阵的消息. 除了业界猜测已久的重复数据删除和企业级闪存,EMC还增加了众多新功能以在VMware环境下优化存储.EMC的Celerra系列NAS.iSCSI和FC产品,去年收获了百分之四十以上的增长,远高于该公司的Symmetrix和CLARiiON SAN销售.Celerra

EMC ViPR首次更新 增加对Hadoop和SRMS的支持

EMC公司近期发布了其软件定义存储应用EMCViPR的第一次更新,此次更新中增加了对Hadoop和EMC的Storage Resource Management Suite的支持.EMC还更新了其用于管理存储硬件平台的Storage Resource Management Suite(SRMS). EMC曾在去年五月透露将凭借其ViPR进军软件定义存储,2013年九月ViPR正式上市. 根据EMC的愿景,ViPR将把存储控制层与数据层分离开来,以简化管理并能将不同的 存储阵列作为一个存储池. E

EMC Greenplum增非结构化大数据分析功能

EMC今天宣布Hadoop Data Computing Appliance(DCA)设备中增加了一项新功能,允许用户将非结构化与结构化数据分析平台结合起来. EMC还公布了Greenplum Analytics Workbench--一个针对Apache Hadoop软件集成测试的1000节点测试台. 该测试台为Hadoop开源社区提供了测试资源以快速识别错误.稳定新版本以及优化硬件配置,努力加快Hadoop的创新.所有测试和结果都将返回至Apache Software Foundation和

EMC正加大对Hadoop战略的投入

存储巨头EMC正在加大对Hadoop战略的投入力度,EMC建立了一个1000节点集群用于测试新的Apache Hadoop版本,新的测试平台被称为"Greenplum Analytics Workbench".同时还推出一种新的分析设备,这种设备将EMC Hadoop与EMC Greenplum数据库结合在一起,并实现结构化和非结构化数据的协同处理. 大多数EMC的观察人士都知道,新的数据计算设备同公司在5月推出Hadoop计划时一起推出的.因为这为公司提供了一个在海量数据领域中统一且

云计算架构之Hadoop:从小象变大象的发展历程

由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台.就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命.如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善. 基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目.在近十年中Hadoop已成为大数据革命的中心.MapReduce 作为Hadoop的核心是一种处理大型及超大型数据集(T

SAS:多年分析经验让Hadoop更加强大

云计算.移动化.社交网络.大数据被公认为四大趋势,大数据则以挖掘数据中所蕴含的价值被大量用户所关注,随着大数据生态圈的形成和稳步发展,Hadoop已经成为大数据重要的平台.近日,在2014 SAS中国区用户大会上,SAS公司高层表示SAS希望利用多年在数据分析方面的经验让Hadoop集群平台更加强大. Hadoop 2.0版本在去年推出之后,最重要的变化就是将被人所诟病的Mapreduce框架升级为Apache YARN框架,大大扩展了Hadoop中应用软件种类和应用程度.SAS公司作为商业分析

浅谈Hadoop系统架构与海量数据分析

微软近日宣布开发一个兼容Windows Server与Windows Azure平台的Hadoop开源版本.IBM宣布在Hadoop上建立新的存储架构,作为群集运行DB2或Oracle数据库,目的是让应用程序,支持高性能分析,数据仓库应用程序和云计算的目的.EMC也推出了世界上第一个定制的.高性能的Hadoop专用数据协同处理设备--Greenplum HD数据计算设备,为客户提供了最强大.最高效率的方法,充分挖掘大数据的价值.互联网搜索巨头百度也在考虑使用Hadoop.不过,出于性能与安全的考

VMworld 2012:Hadoop离虚拟化还有多远?

VMware试图让Hadoop运行在虚拟环境中来应对大数据的挑战,但这不仅面临技术上的难题,来自竞争对手的狙击也不容忽视 [IT专家网 虚拟化频道]如果软件应用能够超越一切基础架构的差异性,企业IT将会少掉多少烦恼?本周举行的VMworld 2012大会上,VMWare重申了该公司的重大图谋:将所有物理资源虚拟化,实现全面池化以快速调配和部署,即软件定义型数据中心(SDDC).在应用层,这家虚拟化巨头正在努力将Hadoop搬进虚机之中,以应对"大数据". 大数据是时下业界热议的话题,走