为什么选择ali-E-MapReduce

介绍

E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括但不限于Hadoop、Spark、Hbase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。我们提供的软件基本都是开源的软件,会有一些性能的优化,但是绝对不引入任何不兼容的改动。具体实施可以参考:https://www.aliyun.com/product/emapreduce

Hadoop可以处理哪些场景

Hadoop as a service的概念提出由来已久,当前99.9%的公司都在使用Hadoop。目前可以处理几乎所有的场景,如:ETL、实时流式处理、实时查询、机器学习等场景。当前,在阿里云E-MapReduce中,每个场景都有一些用户在使用,后续我们也会提供一些典型的场景给您作为参考。

为什么需要上云

针对这个问题可能业界已经有了一些共识,目前大部分担心数据安全的问题。阿里云是一家云计算、大数据的提供商,我们保证不碰用户的任何数据,保证您的数据不会丢失、不泄漏。
从成本上,我们从几个方面考虑

  • 线下运维成本高,主要涉及到硬件的维护,包括磁盘的损坏维修等,软件版本的更新,一些漏洞补丁的更新等。在云端,您不需要考虑这些事情。
  • 线下机器跟业务之间的不匹配,如果业务发展太快,采购一般很难跟上,跟上了机器基本很长时间处于空闲状态。特别是游戏、互联网之类的公司,往往业务都有波峰、波谷,自建很难满足此类的需求,最后肯定会有大量的机器被闲置或者利用率底下。在云端,资源基本可以动态伸缩,可以跟着业务的压力申请特定的机器,极大节约成本。
  • 线下需要培养每个专业软件的人才,对一些公司很难有大的专业团队支撑大数据专业软件。在云端一般会有专业的技术团队支持的。用户遇到一些棘手的问题,可以第一时间找我们的专家团队解决。我们也会开发出一些诊断的工具,帮您诊断集群、job的性能。

您也会节约大量的精力,把精力投入在您的业务上。从社会发展来看,社会分工会不断精细化,专业人的人干专业的事情。

虚拟机的性能、稳定性

目前在Aliyun已经有数以万计的用户在运行任务,很多公司一开始就在Aliyun上创业的。Aliyun的ECS都有性能、稳定性保障的。业界也有很多的评测报告,可以看下。如果实在担心,您可以亲自测试下。

不建议用户购买ECS搭建Hadoop,应该直接使用E-MapReduce

我们从几个方面考虑,

  • E-MapReduce有一套管控平台,目前页面有启动集群、增加节点、任务编排、任务失败报警等功能。后续会有更多的功能呈现。
  • 帮助您运维Hadoop集群,出现任何问题,我们都可以帮助您解决。
  • 有灵活的计费方案,例如:按照小时计划,也可以包年包月。
  • 跟Aliyun其它的产品高度集成起来,我们提供lib,EMR可以处理OSS(分布式对象存储)、RDS(数据库)中的数据,消费LogService、ONS等消息中间件的消息。
  • 针对大数据场景有特别的优化,如:带宽等。
  • 阿里HADOOP发行版,有众多性能上的优化。
  • 输出阿里的技术能力,专家团队支持,如:HADOOP技术团队、JVM技术团队、Hbase技术团队、JStorm技术团队等,您遇到的几乎任何问题,我们应该已经遇到过了。
  • 有现成的一些解决方案,知识库,会提供给您参考及学习。

我的业务比较复杂,上云很麻烦

一些客户先前在线下有Hadoop集群,上云看起来不是那么简单。比如:数据怎么上云,怎么做到无缝迁移不影响业务。您可以联系我们,我们会有专业的同学与您一起做解决方案,直到您的业务上云、稳定运行为止。

如果您有任何的问题,您可以联系我们。

时间: 2024-11-08 17:26:34

为什么选择ali-E-MapReduce的相关文章

快速理解MapReduce

1 什么是MapReduce? Map本意可以理解为地图,映射(面向对象语言都有Map集合),这里我们可以理解为从现实世界获得或产生映射.Reduce本意是减少的意思,这里我们可以理解为归并前面Map产生的映射. 2 MapReduce的编程模型 按照google的MapReduce论文所说的,MapReduce的编程模型的原理是:利用一个输入key/value对集合来产生一个输出的key/value对集合.MapReduce库的用户用两个函数表达这个计算:Map和Reduce.用户自定义的Ma

客户端MapReduce提交到YARN过程(上)

在Mapreduce v1中是使用JobClient来和JobTracker交互完成Job的提交,用户先创建一个Job,通过JobConf设置好参数,通过JobClient提交并监控Job的进展,在JobClient中有一个内部成员变量JobSubmissionProtocol,JobTracker实现了该接口,通过该协议客户端和JobTracker通信完成作业的提交 public void init(JobConf conf) throws IOException { String track

如何利用mapreduce访问hbase数据

package com.mr.test; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; imp

如何利用mapreduce批量读写hbase数据

package com.mr.test; import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; imp

用于简化MapReduce编程的Java库Apache Crunch简介

Apache Crunch(孵化器项目)是基于Google的FlumeJava库编写的Java库,用于创建MapReduce流水线.与其他用来创建 MapReduce作业的高层工具(如Apache Hive.Apache Pig和Cascading等)类似,Crunch提供了用于实现如连接数据.执行 聚合和排序记录等常见任务的模式库.而与其他工具不同的是,Crunch并不强制所有输入遵循同一数据类型.相反,Crunch 使用了一种定制的类型系统,非常灵活,能够直接处理复杂数据类型,如时间序列.H

C#中实现MapReduce方法

如果不知道MapReduce是怎么工作的,请看这里,如果不知道MapReduce是什么,请google之! 今天"闲"来无事,忽想起C#里没有MapReduce的方法,构思之,coding之: #region IEnumerable<T>.MapReduce public static Dictionary<TKey, TResult> MapReduce<TInput, TKey, TValue, TResult>( this IEnumerabl

Mapreduce实现矩阵乘法的算法思路

大数据计算中经常会遇到矩阵乘法计算问题,所以Mapreduce实现矩阵乘法是重要的基础知识,下文我尽量用通俗的语言描述该算法. 1.首先回顾矩阵乘法基础 矩阵A和B可以相乘的前提是,A的列数和B的行数相同,因为乘法结果的矩阵C中每一个元素Cij,是A的第i行和B的第j列做点积运算的结果,参见下图: 2.进入正题 在了解了矩阵乘法规则后,我们打算采用分布式计算模型Mapreduce来完成这一过程. MR过程是在Hadoop集群的多台机器上同时进行的,所以能MR化的计算必须是没有前后关系.相互独立的

MapReduce实现矩阵乘法:实现代码

编程环境: java version "1.7.0_40" Eclipse Kepler Windows7 x64 Ubuntu 12.04 LTS Hadoop2.2.0 Vmware 9.0.0 build-812388 输入数据: A矩阵存放地址:hdfs://singlehadoop:8020/workspace/dataguru/hadoopdev/week09/matrixmultiply/matrixA/matrixa A矩阵内容: 3 4 6 4 0 8 matrixa

MapReduce实现排序功能

期间遇到了无法转value的值为int型,我采用try catch解决 str22 str11 str33 str14 str47 str25 str39 用的\t隔开,得到结果 str11,4 str2 2,5 str3 3,9 str4 7 更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/sjjg/ 我这里map,reduce都是单独出来的类,用了自定义的key package com.kane.mr; impo

MapReduce job在JobTracker初始化的源码级分析

mapreduce job提交流程源码级分析(三)中已经说明用户最终调用JobTracker.submitJob方法来向JobTracker提交作业.而这个方法的核心提交方法是JobTracker.addJob(JobID jobId, JobInProgress job)方法,这个addJob方法会把Job提交到调度器(默认是JobQueueTaskScheduler)的监听器JobQueueJobInProgressListener和EagerTaskInitializationListen