Amazon推出基于Hadoop的MapReduce

对于如何将流行的Apache HadoopMapReduce框架运行于AmazonEC2之上,老早之前就已经有教程了。今天Amazon通过Amazon Elastic MapReduce对其提供了官方支持,不断改善自身。从其产品页面可看到:

Amazon Elastic MapReduce自动地在Amazon EC2实例上驱动一个MapReduce框架的Hadoop实现,将任务流中的数据分解为更小的块以用于并行处理(“map”函数),并最终将处理后的数 据重新组合在一起成为最后结果(“reduce”函数)。Amazon S3作为被分析的数据源,并作为最终结果输出的目的地。

Amazon Elastic MapReduce的价格是在现有EC2的收费之上的15%比率。其FAQ上有一个关于价格和使用的完整列表。AWS的官方博客也提供了报道:

...Elastic MapReduce的处理是围绕着任务流这一概念为中心来开展的。每个任务流包含一步或者多步。第一步从Amazon S3输入一定的数据,再将其分配给指定数量的运行Hadoop的EC2实例(如果需要的话,驱动这一实例),完成所有的工作,再将结果写回S3。每个步骤 必须参考应用特定的“mapper”和/或“reducer”代码(Java JARS或是通过流模型使用的脚本代码)。我们同时还包含进了集合包,对一系列诸如和,最小,最大,历史图以及计数等等的公共操作提供了内置的支持。在你 开始写代码之前就已经有很多事情搞定了!

我们提供了三种不同的访问Elaastc MapReduce的途径。你可以通过Elastic MapReduce API获取完全的控制,你也可以使用Elastic MapRedue命令行工具,或者在AWS管理控制台的Elastic MapReduce标签页通过点击进行操作!让我们分别来看每一个...

ZDNet的Dana Gardner 推测 这暗示了Amazone将在商业智能市场推出新的产品。

时间: 2024-09-20 16:51:04

Amazon推出基于Hadoop的MapReduce的相关文章

使用python构建基于hadoop的mapreduce日志分析平台

流量比较大的日志要是直接写入Hadoop对Namenode负载过大,所以入库前合并,可以把各个节点的日志凑并成一个文件写入HDFS. 根据情况定期合成,写入到hdfs里面. 咱们看看日志的大小,200G的dns日志文件,我压缩到了18G,要是用awk perl当然也可以,但是处理速度肯定没有分布式那样的给力. Hadoop Streaming原理 mapper和reducer会从标准输入中读取用户数据,一行一行处理后发送给标准输出.Streaming工具会创建MapReduce作业,发送给各个t

基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究 蔡斌雷 任家东 朱世伟 郭芹 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度

基于Hadoop系统的MapReduce数据流优化

1 Hadoop管道改进思想 在Hadoop系统的实现中,Map端的输出数据首先被溢写入本地磁盘,当本机任务完成后通知JobTracker,然后Reduce端在得到 JobTracker的通知后会发出HTTP请求,利用复制的方式从相应的Map端拉回其输出.这样的方式只能等该Map任务完成后才能开始执行 Reduce任务,并且Map任务和Reduce任务的执行是分离的. 我们的改进思想是使Map任务和Reduce任务能够以管道的方式执行,即Map任务开始产生输出后直接发送给相应的Reduce任务,

Hadoop新MapReduce框架Yarn详解

Hadoop MapReduceV2(Yarn) 框架简介 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式 处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者 可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框 架图: 图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原 Map

基于hadoop的hmm模型实现

问题描述 基于hadoop的hmm模型实现 哪位大神能帮我看一下,为什么我基于hadoop实现的hmm,输入总是报错?一开始报not a sequencefile ,然后我用mahout里面的seqdirectory把txt文件变成了sequencefile,接着又报java.lang.NullPointerException.我都要哭了,刚开始学hadoopimport java.io.IOException;import java.text.DecimalFormat; import org

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台. 一.Hadoop的应用业务分析 大数据是不能用传统的计算技术处理的大型数据集的集合.它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域. 目前主流的三大分布式计算系统分别为:Hadoop.Spark和Strom: Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统.可以轻松地集成结构化.半结构化甚至非结

基于Hadoop版本Tachyon:吞吐量要比HDFS高300多倍

Hadoop足够快吗?美国加州大学伯克利分校的AMPLab基于Hadoop的核心组件开发出一个更快的版本Tachyon.AMPLab从底层重建了Hadoop平台,"没有最快,只有更快". AMPLab在大数据领域最知名的产品是Spark,它是一个内存中并行处理的框架,Spark的创造者声称:使用Shark运行并行处理Job速度要比MapReduce快100倍.又因为Spark是在内存运行,所以Shark可与Druid或者SAP's HANA系统一较高下.Spark也为ClearStor

基于Hadoop数据仓库Hive1.2部署及使用

接下来安装Hadoop数据仓库Hive,上节了解HBase简单使用,听起来HBase与Hive有些类似,概念也有点模糊,那我们先了解下他们之间有什么区别:   HBase是一种分布式.面向列的NoSQL数据库,基于HDFS存储,以表的形式存储数据,表由行和列组成,列划分到列族中.HBase不提供类SQL查询语言,要想像SQL这样查询数据,可以使用Phonix,让SQL查询转换成hbase的扫描和对应的操作,也可以使用现在说讲Hive仓库工具,让HBase作为Hive存储.   Hive是运行在H

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持