hadoop简介

Apache Hadoop更准确的说是一个基础架构平台。主要提供分布式文件存储,云计算。

具体这个大平台包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。

使用hadoop,要结合zookeeper,Hbase使用。

目前有2个主要版本,1.0和2.0。其中各个版本的文件结构都是不兼容的。但是原理都差不多。而对于map/reduce,2.0中采用了新的架构yarn。进一步解决了单点问题。

目前hadoop有2个开源版本,一个是Apache的版本,另一个是Cloudera在Apache的基础上进行优化的版本,也称为CDH3版。

查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/webkf/tools/

时间: 2024-08-03 01:48:04

hadoop简介的相关文章

《深入理解Hadoop(原书第2版)》——第2章 Hadoop中的概念 2.1 Hadoop简介

第2章 Hadoop中的概念 价格实惠的普通计算机经常满足不了应用程序的计算资源需求,很多企业的业务应用程序已经不再适合在单台廉价的计算机上运行.这时,一个简单昂贵的解决方案就是购买一些具有多CPU的高端服务器,这通常需要巨额资金.只要能买到最高端的服务器,这个解决方案就能够达到理想的效果,但预算往往是个大问题.另一个替代方案,就是搭建一个高可用的集群,这个集群经过专业的安装和精心的管理服务,使用起来就像一台计算机一样.很多高可用的集群都是企业专有的而且价格也十分贵. 为了获取所需的计算资源,一

Hadoop 简介

Hadoop的发音是 ['hædu:p].  Apache的发音是 [æpæʃ]. Hadoop是Apache基金会的一个开源项目,用于大量数据的分布式处理.核心为HDFS与MapReduce. 1.HDFS HDFS,Hadoop Distributed File System,Hadoop分布式文件系统. 2.map-reduce思想 mapper将大任务化为小任务,分布式并行计算.中间结果传给reducer,作归约整理,得到最终结果. 3.相关类 3.1配置 void org.apache

云计算、Amazon EC2、Hadoop简介

近来云计算越来越热门了,云计算已经被看作 IT 业的新趋势.云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费.可以通过 Internet 访问 "云" 中的任何资源,而不需要担心计算能力.带宽.存储.安全性和可靠性等问题. 先要介绍一下云计算系统的结构.图 1 显示云计算的各个层以及现有的一些服务.   图 1. 云计算的层和现有服务     基础设施即服务(Infrastructure-as-a-service, IaaS)是指以服务的形式租借基础

《MapReduce设计模式》一1.3 MapReduce和Hadoop简介

Hadoop MapReduce作业被分成一系列运行在分布式集群中的map任务和reduce任务.每个任务都工作在被指定的小的数据子集上,因此负载是遍布集群中各个节点上的.map任务主要负责数据的载入.解析.转换和过滤.每个reduce任务负责处理map任务输出结果的一个子集.然后,reducer任务从mapper任务处复制map任务的中间数据,进行分组和聚合操作.从简单的数值聚合到复杂的关联操作以及笛卡儿积操作,MapReduce通过如此简洁的架构来解决范围广泛的诸多问题,这确实让人难以置信.

用Hadoop进行分布式并行编程, 第1部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数 据的计算.本文将介绍 MapReduce 计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法. Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储 对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoo

YARN:下一代 Hadoop计算平台

Apache Hadoop 是最流行的大数据处理工具之一.它多年来被许多公司成功部署在生产中.尽管 Hadoop 被视为可靠的.可扩展的.富有成本效益的解决方案,但大型开发人员社区仍在不断改进它.最终,2.0 版提供了多项革命性功能,其中包括 Yet Another Resource Negotiator (YARN).HDFS Federation 和一个高度可用的 NameNode,它使得 Hadoop 集群更加高效.强大和可靠.在本文中,将对 YARN 与 Hadoop 中的分布式处理层的

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

Hadoop集群遭遇勒索软件攻击 据称中国有8300多个Hadoop集群暴露在互联网上

继上周绿盟科技发布 ElasticSearch专项报告 以来,又监测到勒索软件正在攻击Hadoop集群,这再次表明黑客正在尝试从"大数据"中获利,绿盟科技给出的建议是关闭端口.启用安全认证机制.使用WVSS Web应用漏洞扫描等方式进行安全扫描.绿盟科技发布的专项报告全文如下: 勒索软件攻击Hadoop事件综述 最近,部分黑客组织针对几款特定产品展开了勒索攻击.截止到上周,已有至少34000多台MongoDB数据库被黑客组织入侵,数据库中的数据被黑客擦除并索要赎金.随后,在2017年1

《Hadoop大数据分析与挖掘实战》——2.1节概述

2.1 概述2.1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.Hadoop以分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce(Google MapReduce的开源实现)为核心,为用户提供了系统底层细节透明的分布式基础架构.分布式文件系统HDFS的高容错性.高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式文件系统:MapReduce分布式编程模型允许用户在不了解分布式系统底层