基于Hadoop的Map reduce编程(一)

翻译的一篇国外的关于hadoop mapreduce的文章,文章比较长,先翻译第一部分吧

翻译者:pconlin900

博客:http://pconline900.javaeye.com

Hadoop是apache的一个开源的map-reduce框架,MapReduce是一个并行计算模型,用来处理海量数据。模型思想来源于google的Jeffrey Dean 和 Sanjay Ghemawat,包括map() reduce()两个主要的功能。

这是一个很简单的类似于Hadoop的MapReduce应用例子,应用了mapreduce的基本思想,可以帮助理解hadoop的处理思想和技术,但注意,它没有使用hadoop框架。

例子的功能是创建一些字符串,然后统计这些字符串里面每个字符出现的次数,最后汇总得到总的字符出现次数。

Listing 1. 主程序

public class Main
{
  public static void main(String[] args)
  {
    MyMapReduce my = new MyMapReduce();
    my.init();
  }

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索hadoop
, 字符串
, 并行计算
, hadoop mapreduce编程
, 一个
, Map/Reduce框架
思想
hadoop map reduce、hadoop多次map reduce、hadoop map和reduce、hadoop设置reduce个数、hadoop reduce,以便于您获取更多的相关知识。

时间: 2024-12-06 09:27:49

基于Hadoop的Map reduce编程(一)的相关文章

Hadoop 少量map/reduce任务执行慢问题

最近在做报表统计,跑hadoop任务. 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题. 执行时间长有几种可能性: 1. 单个map/reduce任务处理的任务大.     需要注意每个任务的数据处理量大小不至于偏差太大.可以切割部分大文件. 2. map数量过多, reduce拉取各方数据慢     这种情况,可以在中间加一轮map过程A.     即map -> mapA - > reduce,来减少reduce拉取数据的源头的个数. 3.

Hadoop + Hive + Map +reduce 集群安装部署

环境准备: CentOS 5.5 x64&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; (3台) 10.129.8.52  (master) ======>> NameNode, SecondaryNameNode,JobTracker 10.129.8.76    (slave01) ======>> DataNode, TaskTracker 10.129.8.33    (slave

基于Hadoop的云计算与存储平台研究与实现

随着互联网技术的发展,数宇信息正在成指数增加,根据Internet Data Cente:发布的Digital Universe报告显示,在未来8年中所产生的数据量将达到40 ZB,相当于每人产生5200 G的数据,如何高效地计算和存储这些海量数据成为互联网企业所要而对的挑战.传统的大规模数据处理大多采用并行计算.网格计算.分布式高性能计算等,耗费昂贵的存储与 计算资源,而且对于大规模数据计算任务的有效分配和数据合理分割都需要复杂的编程才可以实现.基于Hadoop分布式云平台的出现成为解决此类问

Hadoop Map/Reduce教程

目的 这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面. 先决条件 请先确认Hadoop被正确安装.配置和正常运行中.更多信息见: Hadoop快速入门对初次使用者. Hadoop集群搭建对大规模分布式集群. 概述 Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集. 一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若

hadoop 设置map和reduce的个数

问题描述 hadoop 设置map和reduce的个数 本人搭建了hadoop的开发环境,一个namenode, 两个datanode,写了一个wordcount的程序,能成功执行,那么问题来了,怎么查看map,和reduce的个数,又怎么人为的控制map个reduce的个数. 解决方案 context.getCounter() job.setNumReduceTasks(?) 解决方案二: 如果只有1个map-reduce,那map的个数是由文件大小来确定的,64MB一个分片,能划分多少个分片

王亟亟的Python学习之路(八)-函数式编程,map(),reduce(),filter()

转载请注明出处:王亟亟的大牛之路 首先在这里祝愿大家,新年快乐,工作顺利,BUG少少!!! 本来说是在春节假期内继续维持着写文章的进度,但是还是偷懒了几天(打了4天SC2哈哈哈) 今天上的是关于Python的文章,毕竟在亲戚家拜年,懒得插各类手机调试什么的,况且确实好久没有弄Python了,就写了,废话不多,开始正题!! 函数式编程 函数是什么? 把复杂的操作化为简单的函数分解成简单的操作,这种操作就是面向过程,也就是C这类的实现的大体概念. 函数式是什么? 函数没有变量,任意一个函数,只要输入

基于云计算的Web数据挖掘Map/Reduce算法的研究

基于云计算的Web数据挖掘Map/Reduce算法的研究 王勃 徐静 Web数据挖掘通过收集网络中大量有效的数据信息,进行有效的分析,为实现最终信息化的自动处理功能奠定基础. 面对Web数据挖掘中处理大量的数据信息,尤其是数据量每日以几何数增长 ,其算法尤为复杂,存储量大等综合问题, 我们将云计算嵌入到 数据挖掘中去. 基于云计算的Web数据挖掘Map/Reduce算法的研究

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台. 一.Hadoop的应用业务分析 大数据是不能用传统的计算技术处理的大型数据集的集合.它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域. 目前主流的三大分布式计算系统分别为:Hadoop.Spark和Strom: Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统.可以轻松地集成结构化.半结构化甚至非结

基于Hadoop的数据仓库Hive基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持