Hadoop是什么

   Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.

  Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.

  数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果.


  HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.

  大文件被分成默认64M一块的数据块分布存储在集群机器中.

  如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.


  MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.


  Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

  如下图所示:


  NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

  NameNode同时保存了文件系统运行的状态信息.

  DataNode中存储的是被拆分的blocks.

  Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

  JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

  TaskTracker负责某一个map或者reduce任务.

时间: 2024-10-30 22:24:43

Hadoop是什么的相关文章

小功告成,在WIN7上配置上了HADOOP,终于可以一窥真容啦

主要参考文档: http://blog.csdn.net/ruby97/article/details/7423088 以后,慢慢熟悉具体操作吧. sky@koala /home/hadoop-0.20.2 $ cd conf sky@koala /home/hadoop-0.20.2/conf $ dos2unix hadoop-env.sh dos2unix: converting file hadoop-env.sh to Unix format ... sky@koala /home/h

Eclipse查看Hadoop源码

1.开发环境 1.Hadoop-1.2.1 2.apache-ant-1.8.0 2.新建Java项目 项目叫"Hadoop_sourcecode" 3.拷贝Hadoop中源码 Hadoop包中src文件文件夹下core.hdfs.mapred文件夹拷贝到项目的src中 4.改变目录结构 删除原来的目录结构:   增加新的目录结构:        选定后的目录结构      5.添加Jar包 需要包含进来的jar包: "\hadoop-1.2.1\lib"中所有ja

如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+.这对Hadoop/Spa

Win7下安装Hadoop

1.本人电脑是Win7 64位系统的: 2.JDK 版本: 3.Cygwin 版本: 官网自行下载 4.Hadoop 版本: 官网自行下载,下载稳定版的吧 下面就开始安装啦~~~~ 一. 安装JDK,安装时注意,最好不要安装到带有空格的路径名下,例如:Programe Files,否则在配置Hadoop的配置文件时会找不到JDK.我安装的路径为C:\Java\jdk1.7.0_21,安装完配置环境变量: 1. 安装完成后开始配置环境变量,右击我的电脑,点击属性 2. 在出现的对话框中选择高级系统

eclipse/intellij idea 远程调试hadoop 2.6.0

很多hadoop初学者估计都我一样,由于没有足够的机器资源,只能在虚拟机里弄一个linux安装hadoop的伪分布,然后在host机上win7里使用eclipse或Intellj idea来写代码测试,那么问题来了,win7下的eclipse或intellij idea如何远程提交map/reduce任务到远程hadoop,并断点调试? 一.准备工作 1.1 在win7中,找一个目录,解压hadoop-2.6.0,本文中是D:\yangjm\Code\study\hadoop\hadoop-2.

九头蛇与大象之争,Hydra或将取代Hadoop

[编者按]Hadoop被认为是最好的大数据分析平台,本身就具有较好的性能,还有活跃的开源社区支持,Hadoop创始人Doug Cutting也曾预言未来Hadoop不仅仅用于大数据处理,还将成为数据平台的系统内核,将用于在线事务处理--Hadoop的发展前景似乎一片光明,却没有注意到竞争者的出现,Hydra在某些方面甚至具有比Hadoop更加优越的性能,宣布开源以后,Hydra得到了越来越多的支持,未来Hydra极有可能成为Hadoop强劲的竞争对手,Datanami的主编Alex Woodie

Hadoop Yarn详解

一.Yarn简介 Yarn是Hadoop集群的资源管理系统.Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn.在介绍Yarn之前,我们先回头看一下Hadoop1.x对MapReduce job的调度管理方式(可参考:Hadoop核心之MapReduce架构设计),它主要包括两部分功能: 1. ResourceManagement 资源管理 2. JobScheduling/JobMonitoring 任务调度监控

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产.有人称为金矿.甚至社会财富.而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.Gartne认为"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据并不在"大",而在于"有用".价值含量.挖掘成本比数量更为重要.对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键.大数据

CentOS 7下配置hadoop 2.8 分布式集群

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,实现分布式文件系统HDFS,用于存储大数据集,以及可以以流的形式访问(streaming access)文件系统中的数据.Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.本文描述了在CentOS 7下,基于三个节点安装hadoop 2.8,供大家参考. 一.基础环境描述 OS版本 [root@namenode ~]# more /etc/

windows-Windows 安装Hadoop格式化出错

问题描述 Windows 安装Hadoop格式化出错 hadoop-env.sh # The java implementation to use.export JAVA_HOME=""/cygdrive/c/Program Files/Java/jdk1.8.0_51"" 解决方案 在Windows下安装Hadoop在Windows下安装与配置Hadoopwindows下安装配置hadoop 解决方案二: jdk路径指定正确了吗