干货|大数据Hadoop快速入门教程

1、Hadoop生态概况

Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。

Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下

2、HDFS

源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障

HDFS简化了文件一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序,它提供了一次写入多次读取的机制,数据以块的形式,同时分布在集群不同物理机器

3、Mapreduce

源自于谷歌的MapReduce论文,用以进行大数据量的计算,它屏蔽了分布式计算框架细节,将计算抽象成map和reduce两部分

4、HBASE(分布式列存数据库)

源自谷歌的Bigtable论文,是一个建立在HDFS之上,面向列的针对结构化的数据可伸缩,高可靠,高性能分布式和面向列的动态模式数据库

5、zookeeper

解决分布式环境下数据管理问题,统一命名,状态同步,集群管理,配置同步等

6、HIVE

由Facebook开源,定义了一种类似sql查询语言,将SQL转化为mapreduce任务在Hadoop上面执行

7、flume

日志收集工具

8、yarn分布式资源管理器

是下一代mapreduce,主要解决原始的Hadoop扩展性较差,不支持多种计算框架而提出的,架构如下

9、spark

spark提供了一个更快更通用的数据处理平台,和Hadoop相比,spark可以让你的程序在内存中运行

10、kafka

分布式消息队列,主要用于处理活跃的流式数据

11、Hadoop伪分布式部署

目前而言,不收费的Hadoop版本主要有三个,都是国外厂商,分别是

  • 1、Apache原始版本
  • 2、CDH版本,对于国内用户而言,绝大多数选择该版本
  • 3、HDP版本

这里我们选择CDH版本hadoop-2.6.0-cdh5.8.2.tar.gz,环境是CentOS7.1,jdk需要1.7.0_55以上

[root@hadoop1 ~]# useradd hadoop

我的系统默认自带的java环境如下

增加如下环境变量

做好如下授权

这里以Hadoop用户来进行管理和启动Hadoop的各种服务

查看服务启动情况

本文作者:佚名

来源:51CTO

时间: 2024-09-19 09:30:54

干货|大数据Hadoop快速入门教程的相关文章

[Hadoop大数据]——Hive部署入门教程

Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的.只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api. 在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客: Linux下安装jdkLinux下安装hadoop伪分布式 在安装之前,先了解下Hive都有哪些东西. 下载并解压缩 去主页选择镜像地址: http://www.apache.org/dyn/cl

ReactJs快速入门教程(精华版)_javascript技巧

现在最热门的前端框架有AngularJS.React.Bootstrap等.自从接触了ReactJS,ReactJs的虚拟DOM(Virtual DOM)和组件化的开发深深的吸引了我,下面来跟我一起领略ReactJs的风采吧~~ 文章有点长,耐心读完,你会有很大收获哦~  一.ReactJS简介 React 起源于 Facebook 的内部项目,因为该公司对市场上所有 JavaScript MVC 框架,都不满意,就决定自己写一套,用来架设 Instagram 的网站.做出来以后,发现这套东西很

Vue.js快速入门教程_javascript技巧

像AngularJS这种前端框架可以让我们非常方便地开发出强大的单页应用,然而有时候Angular这种大型框架对于我们的项目来说过于庞大,很多功能不一定会用到.这时候我们就需要评估一下使用它的必要性了.如果我们仅仅需要在一个简单的网页里添加屈指可数的几个功能,那么用Angular就太麻烦了,必要的安装.配置.编写路由和设计控制器等等工作显得过于繁琐. 这时候我们需要一个更加轻量级的解决方案.Vue.js就是一个不错的选择.Vue.js是一个专注于视图模型(ViewModal)的框架.视图模型是U

数据库快速入门教程--视频

数据库快速入门教程--视频 下载地址:http://v.51work6.com/courseInfoRedirect.do?action=courseInfo&courseId=240579 本课程是这个课程体系的核心之一,为软件开发人员所需数据库知识的学习教材,而不是培训一个DBA(数据库管理员),更具体的说是为Web开发程序员所需数据库知识的学习教材.基于培养程序员的目标,本课程对数据库和SQL语句的相关知识进行了深刻地阐明和分析,学习的重点是标准SQL语句的学习的掌握.常用数据库MySQL

Yii2框架制作RESTful风格的API快速入门教程_php实例

先给大家说下什么是REST restful REST全称是Representational State Transfer,中文意思是表述(编者注:通常译为表征)性状态转移. 它首次出现在2000年Roy Fielding的博士论文中,Roy Fielding是HTTP规范的主要编写者之一. 他在论文中提到:"我这篇文章的写作目的,就是想在符合架构原理的前提下,理解和评估以网络为基础的应用软件的架构设计,得到一个功能强.性能好.适宜通信的架构.REST指的是一组架构约束条件和原则." 如

Laravel 5.3 表单实现 curd 快速入门教程

一.简介: 一个 Laravel 5.3 表单实现 curd 快速入门教程(Demo) 代码下载:https://github.com/yanlongma/laravel-curd 二.安装: 1. 连接数据库 修改 .env 配置文件 DB_CONNECTION=mysql DB_HOST=localhost DB_PORT=3306 DB_DATABASE=laravel DB_USERNAME=root DB_PASSWORD=root 2. 新建数据表 首先创建一个数据库 laravel

Teradata天睿公司获评大数据Hadoop优化系统领域的领导者

ZD至顶网CIO与应用频道 06月06日 北京消息:全球知名市场分析公司Forrester 的最新报告显示,全球领先的大数据分析服务供应商Teradata天睿公司(Teradata Corporation,纽交所:TDC) 被评为大数据 Hadoop 优化系统(Big Data Hadoop-Optimized Systems)的三大领导者之一.该报告为<Forrester浪潮:2016 年第二季度大数据 Hadoop 优化系统报告>,由 Noel Yuhanna 和 Mike Gualtie

Yii2框架制作RESTful风格的API快速入门教程

先给大家说下什么是REST restful REST全称是Representational State Transfer,中文意思是表述(编者注:通常译为表征)性状态转移. 它首次出现在2000年Roy Fielding的博士论文中,Roy Fielding是HTTP规范的主要编写者之一. 他在论文中提到:"我这篇文章的写作目的,就是想在符合架构原理的前提下,理解和评估以网络为基础的应用软件的架构设计,得到一个功能强.性能好.适宜通信的架构.REST指的是一组架构约束条件和原则." 如

大数据Hadoop解决方案

根据最新的Forrest报告,有很多公司都在努力挖掘他们拥有的大量数据,包括结构化.非结构化.半结构化以及二进制数据等,探索对大数据的深入利用.下面是报告结论的其中一点: 大多数公司估计他们只分析了已有数据的12%,剩余88%还没有被充分利用.大量的数据孤岛和分析能力的缺乏是造成这种局面的主要原因.另外一个难题是如何判断数据是否有价值.尤其是在大数据时代,你必须采集并存储这些数据.一些看起来与业务无关的数据,如手机GPS数据,将来也可能是座金矿. 所以,大量公司都寄希望于使用Hadoop解决如下