阿里云E-MapReduce产品简介

产品概述:

阿里云 Elastic MapReduce(E-MapReduce) 是运行在阿里云平台上的一种大数据处理的系统解决方案。E-MapReduce 构建于阿里云云服务器 ECS 上,基于开源的 Apache Hadoop 和 Apache Spark,让用户可以方便地使用Hadoop和Spark生态系统中的其他周边系统(如 Apache Hive、Apache Pig、HBase 等)来分析和处理自己的数据。不仅如此,用户还可以通过E-MapReduce将数据非常方便的导出和导入到阿里云其他的云数据存储系统和数据库系统中,如阿里云 OSS、阿里云 RDS 等。

E-MapReduce 的用途

当用户想要使用 Hadoop、Spark 等分布式处理系统的时候,通常需要经历如下的步骤:

1.评估业务特点
2.选择机器类型
3.采购机器
4.准备硬件环境
5.安装操作系统
6.部署 Hadoop 和 Spark 等 app
7.启动集群
8.编写应用程序
9.运行作业
10.获取数据等一系列的步骤
在这些流程中,真正跟用户的应用逻辑相关的是从第8步才开始,第1-7步的各项工作都是前期的准备工作,通常这个前期工作都非常冗长繁琐。而 E-MapReduce 提供了集群管理工具的集成解决方案,如主机选型、环境部署、集群搭建、集群配置、集群运行、作业配置、作业运行、集群管理、性能监控等。

通过使用 E-MapReduce,用户可以从集群构建各种繁琐的采购、准备、运维等工作中解放出来,只关心自己应用程序的处理逻辑即可。此外,E-MapReduce 还给用户提供了灵活的搭配组合方式,用户可以根据自己的业务特点选择不同的集群服务。例如,如果用户的需求是对数据进行日常统计和简单的批量运算,则可以只选择在 E-MapReduce 中运行 Hadoop 服务;而如果用户还需要流式计算和实时计算的需求,则可以在 Hadoop 服务基础上再加入 Spark 服务。

E-MapReduce 的组成

E-MapReduce 最核心也是用户直接面对的组件是集群。一个 E-MapReduce 集群是由一个或多个阿里云 ECS instance 组成的 Hadoop 和 Spark 集群。以 Hadoop 为例,在每一个 ECS instance 上,通常都运行了一些 daemon 进程(如 namenode、datanode、resoucemanager 和 nodemanager),这些 daemon 进程就组成了 Hadoop 集群。运行 namenode 和 resourcemanager 的节点被称为 master 节点,而运行 datanode 和 nodemanager 的节点被称为 slave 节点。
例如,下图表示了一个包含1个 master 节点和3个 slave 节点的 E-MapReduce 集群:

产品优势

与自建集群相比,E-MapReduce 能给您提供相对方便可控的手段,从各方面管理自己的集群。此外,它还具有以下优势:

- 易用性

您可简单选择所需 ECS 机型(CPU、内存)与磁盘,并选择所需的软件,进行自动化部署。

您可以根据自己或数据源所处的地理位置申请对应位置的集群资源。目前阿里云 ECS 支持的区域包括华东 1、华东 2、华北 1、华北 2、华南 1、新加坡、香港、美东 1、美西 1 等区域。E-MapReduce 支持的区域包括华北 2、华东 1、华东 2 和华南 1,后续会陆续开放到阿里云 ECS 支持的所有区域。

- 低价

您可以按需创建集群,即离线作业运行结束就可以释放集群,还可以在需要时动态地增加节点。

- 深度整合

与阿里云其它产品如 OSS、MNS、RDS、MaxCompute 等深度整合,使其可作为 E-MapReduce 产品中 Hadoop/Spark 计算引擎的输入源或者输出目的地。

- 安全

E-MapReduce 整合了阿里云 RAM 资源权限管理系统,通过主子账号对服务权限进行隔离。

基础架构

E-MapReduce 的产品架构如下图所示:

从上图可以看出,E-MapReduce 集群基于 Hadoop 的生态环境来搭建,同时可以跟阿里云的对象存储服务(OSS),云数据库(RDS)等云服务进行无缝数据交换,方便您将数据在多个系统之间进行共享和传输,以满足不同业务类型的访问需要。

使用场景

E-MapReduce 集群适用场景很多。简单说来,Hadoop ecosystem 以及 Spark 能够支持的场景,E-MapReduce 都可以支持。因为 E-MapReduce 本质就是 Hadoop 和 Spark 的集群服务,您完全可以将其使用的阿里云 ECS 主机视为自己专属的物理主机。以下示例列出了 E-MapReduce 使用的经典场景。

批量数据处理

Ad hoc 数据分析查询

海量数据在线服务

流式数据处理

时间: 2024-10-27 17:09:54

阿里云E-MapReduce产品简介的相关文章

阿里云发布异构计算产品家族,你可以在上面模拟核爆炸

本文讲的是阿里云发布异构计算产品家族,你可以在上面模拟核爆炸 数据.算力和算法,这是人工智能发展的三大要素. 近一年来,人工智能迎来了史上第三次热潮.移动互联网时代沉淀下来的大量数据和GPU近几年的快速发展,让学界和业界相信,这人工智能时代真的要来了. 由于人工智能模型训练对算力的要求,原有的通用型CPU架构无法满足,不少企业或科研机构在训练模型的时候会通过采用和主处理器(CPU)不同架构的加速器件(也就是所谓"异构"),如GPU.FPGA.ASIC等器件,提供高密度并行计算的运算能力

新春版!2017阿里云150款产品和解决方案全向图(1月制)

导语:上周,国际奥林匹克委员会与阿里巴巴集团在瑞士达沃斯联合宣布,阿里巴巴成为"云服务"及"电子商务平台服务"的官方合作伙伴,以及奥林匹克频道的创始合作伙伴,双方达成期限直至2028年的长期合作. 阿里云能为奥运会提供哪些一流的云计算和人工智能技术?下面这张图或能给你答案. 2017阿里云150款产品和解决方案全向图新春版,点击图片可以直接下载打印高清版 聊完奥运,我们这里再聊聊做这张全向图新春版的初衷. 在过去的一年,阿里云保持快速发展,继续巩固领先地位. 这种领

2016阿里云93款产品全向图(6月制)

DT时代,一切都将走向数据化,可视化.在阿里云所阐述的"技术拓展商业的边界,商业驱动技术的变革"理念中,密集发布的新技术与产品让业内更加震撼,让用户更为惊喜.阿里云逐步实现了"将计算能力变成像水电一样的基础设施"的目标,走向"为了无法计算的价值".   2016阿里云93款产品全向图(6月制)点击可下载大图.如需打印版高清图,点击下载).     2016阿里云93款产品全向图(6月制)的产品介绍如下:   弹性计算   1.云服务器ECS:是一

2016阿里云121款产品和解决方案全向图(9月制)

导语:DT时代,一切都将走向数据化,可视化.在阿里云所阐述的"技术拓展商业的边界,商业驱动技术的变革"理念中,密集发布的新技术与产品让业内更加震撼,让用户更为惊喜.阿里云逐步实现了"将计算能力变成像水电一样的基础设施"的目标,走向"为了无法计算的价值". 阿里云产品全向图第一版在今年6月份发布后,收到很大的反响.仅仅一天多的时间:全向图阅读数就破万.收到上百封打印版高清图索求邮件,以及"攻破"不少人的朋友圈. 三个月过去了,阿

阿里云发布数据库产品HybridDB 兼容23种数据类型

12月9日,阿里云宣布数据库产品 HybridDB 正式商业化.HybridDB(ApsaraDB HybridDB)是一款在线MPP大规模并行处理数据仓库的服务.它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发,并由阿里云数据库团队在云计算架构下深度扩展. 该服务支持了OSS存储.JSON数据类型.HyperLogLog预估分析等功能特性.通过符合SQL2008标准查询语法及OLAP分析聚合函数,提供灵活的混合分析能力.提供在线扩容.备份.性能监测等服务

阿里云数加产品家族图首次亮相

数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴买整栋楼都随您意! 数加官网访问地址:https://data.aliyun.com/ 高清图下载地址 [全球独家首发]阿里云数加大数据产品手册V1.0(纯附件) 陈鹏宇分享主题-数加:迈向数据智能之路 数加与客户的故事 借助数加,原来需要2-3天的单维度数据处理时间,目前仅需3-6小时,研发周期更短,产品

ApsaraDB for Redis,与创客同行:阿里云Redis技术架构简介及后续规划

从单机.集群.容灾.多活等概览阿里云Redis. 设计思想: 稳定性>体验>成本 运维导向:面向FAILOVER 重监控:态势感知,可回溯 重管控:突破规模制约 资源隔离:用户独占资源 技术特点: 无感知热升级,Proxy防闪断:Redis内核so热升级:Proxy链接漂移热升级 全量备份恢复:按时间点备份恢复,游戏滚服利器 容灾:双机房:异地多活for 高可用.高可靠 无缝扩缩容:单机<->集群:云上云下数据搬迁 基于binlog弱网数据同步 内核改进:消除Aof Rewrite

阿里云宣布入门产品免费试用半年

7月15日下午消息,阿里云计算今日宣布:http://www.aliyun.com/zixun/aggregation/13792.html">云服务器.云数据库等四款核心基础产品,新用户免费试用半年后再付费.创业者不花一分钱,就能快速完成网站和应用的部署.这一投入上亿元的举措,对广大中小站长和开发者拥有巨大吸引力. 此次的免费试用,主要针对用户购买率最高的四款基础产品,包括云服务器ECS.云数据库RDS.开放存储服务OSS以及开放缓存服务OCS产品的指定型号,满足绝大部分入门级用户的需求

够快网抢先布局阿里云存储OSS产品

[赛迪网讯]云,这个以往只存在于自然界的名词,在如今的 IT行业里可以说是如日中天,各种基于云计算的新技术层出不穷,而对于企业而言,云已经成为实实在在.可以驾驭的最佳利器. 日前,够快网正式宣布,将在近期全面采用 阿里云计算所提供的一系列 云服务产品.消息传出随即引发了热议,阿里云计算作为国内云计算行业的领军企业,其所提供的 云计算服务已经得到了大量企业的认可,而此次与够快网的合作更是展现了阿里云计算旗下开放存储OSS产品的优势. 作为国内知名的网络存储提供商,够快网已经拥有了相当可观的用户基础

阿里云发布会系列产品 互联网将呈现蝴蝶效应

10月24日,首届中国互联网无线化峰会暨阿里云开发者大会在杭州举行.会上,阿里云对外发布了旗下云计算与产品,包括云开发者平台.开放存储服务.渲染等.这是阿里云计算成立以来,其旗下全系列产品的第一次曝光.本报记者在发布会现场为大家带来了第一手的资讯. 云计算就像自来水厂 "小时候很多地方喝水需要在门口打一口井,每家每户都有一口,打井需要挑地方,很可能花了时间还没有水,又或者打出来之后不够喝,总之,从想要喝水到挖井到喝上水,过程坎坷费时费力.但是现在家里用水只要跟水务公司打个电话,甚至买到房子的时候