什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)

1. HADOOP背景介绍

1. 1.1什么是HADOOP

1.        HADOOP是apache旗下的一套开源软件平台

2.        HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

3.        HADOOP的核心组件有

A.       HDFS(分布式文件系统)

B.       YARN(运算资源调度系统)

C.       MAPREDUCE(分布式运算编程框架)

4.        广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

2. 1.2 HADOOP产生背景

1.        HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2.        2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案

——分布式文件系统(GFS),可用于处理海量网页的存储

——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。

3.        Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。

3. 1.3 HADOOP在大数据、云计算中的位置和关系

1.        云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户。

2.        现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术

3.        而HADOOP则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不等同于云计算本身。

 

4. 1.4国内外HADOOP应用案例介绍

1、HADOOP应用于数据服务基础平台建设

 

2/HADOOP用于用户画像

 

3、HADOOP用于网站点击流日志数据挖掘

金融行业:个人征信分析

证券行业:投资模型分析

交通行业:车辆、路况监控分析

电信行业:用户上网行为分析

......

 

 

总之:hadoop并不会跟某种具体的行业或者某个具体的业务挂钩,它只是一种用来做海量数据分析处理的工具

5. 1.5国内HADOOP的就业情况分析

1、  HADOOP就业整体情况

A.       大数据产业已纳入国家十三五规划

B.       各大城市都在进行智慧城市项目建设,而智慧城市的根基就是大数据综合平台

C.       互联网时代数据的种类,增长都呈现爆发式增长,各行业对数据的价值日益重视

D.       相对于传统JAVAEE技术领域来说,大数据领域的人才相对稀缺

E.        随着现代社会的发展,数据处理和数据挖掘的重要性只会增不会减,因此,大数据技术是一个尚在蓬勃发展且具有长远前景的领域

 

 

2、  HADOOP就业职位要求

大数据是个复合专业,包括应用开发、软件平台、算法、数据挖掘等,因此,大数据技术领域的就业选择是多样的,但就HADOOP而言,通常都需要具备以下技能或知识:

A.       HADOOP分布式集群的平台搭建

B.       HADOOP分布式文件系统HDFS的原理理解及使用

C.       HADOOP分布式运算框架MAPREDUCE的原理理解及编程

D.       Hive数据仓库工具的熟练应用

E.        Flume、sqoop、oozie等辅助工具的熟练使用

F.        Shell/python等脚本语言的开发能力

6. 1.6 HADOOP生态圈以及各组成部分的简介

各组件简介[M1] 

 

 

重点组件:

HDFS:分布式文件系统

MAPREDUCE:分布式运算程序开发框架

HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

HBASE:基于HADOOP的分布式海量数据库

ZOOKEEPER:分布式协调服务基础组件

Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

Oozie:工作流调度框架

Sqoop:数据导入导出工具

Flume:日志数据采集框架

 

 

 


HADOOP(hdfs、MAPREDUCE、yarn)  元老级大数据处理技术框架,擅长离线数据分析

Zookeeper  分布式协调服务基础组件

Hbase 分布式海量数据库,离线分析和在线业务通吃

Hive sql 数据仓库工具,使用方便,功能丰富,基于MR延迟大

Sqoop数据导入导出工具

Flume数据采集框架

时间: 2024-08-31 05:25:10

什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)的相关文章

Hadoop平台管理的大数据建立索引的方法和指南

具体来讲,我们将介绍如何将存储在 IBM 的 InfoSphere® BigInsights(一个基于 Hadoop 的平台)中的数据推送到 InfoSphere Data Explorer.InfoSphere Data Explorer 是一个复杂的工具,支持业务用户探查并组合来自多个企业和外部数据源的数据. 如果您关注过许多围绕大数据的早期案例分析,您可能相信 "您根本不知道您不知道什么" 的说法.确实,大数据应用程序常常专注于从平时可能出于多种原因而导致被丢弃或忽略的数据中收集

IBM面向Hadoop的PureData推大数据机

随着企业大数据项目的进展,数据分析速度的重要性正日渐凸显.为了进一步提升大数据分析速度,IBM本周三在加州发布了一款Hadoop大数据机,旨在帮助企业用户实现对更多种类和更大规模数据进行(更低成本地)实时分析的需求. IBM软件信息管理部门总经理Bob Picciano表示: 企业正被大数据洪水围困,作为厂商IBM必须向客户提供更好的工具掘金大数据,这些工具必须够快,能够处理海量数据同时还要更容易使用. 在Gartner三月份发布的BI魔力四象限图中,IBM是所有厂商中最有远见和创新力"visi

卢东明:Hadoop不能适用所有大数据场

文章讲的是卢东明:Hadoop不能适用所有大数据场,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 近日,在一次微访谈活动中,SAP亚太区数据库解决方案技术总监卢东明回答了笔者的提问,分享了对大数据的几点看法,笔者整理如下: ▲SAP亚太区数据库解决方案技术

国内首个Hadoop一站式产品 直面大数据

本文讲的是国内首个Hadoop一站式产品 直面大数据,2012年5月31日消息,精诚集团今天正式发布Big Data解决方案品牌Etu.作为国内首个基于Hadoop的Appliance产品,Etu能够为用户提供软硬结合的端到端的大数据一体化解决方案,协助企业从每天大量涌现的数据中发掘商业智能,找出更多潜在的商机.精诚云中心暨Etu负责人蒋居裕.中科院计算所.Hadoop China的发起人查礼博士.Etu首席顾问陈昭宇出席了发布会,并发表主题演讲,介绍了Etu产品特点.大数据发展对企业的影响,以

.net程序员想转大数据云计算方面的可行性,或者有什么好的学习路线!

问题描述 .net程序员想转大数据云计算方面的可行性,或者有什么好的学习路线! .net程序员想转大数据云计算方面的可行性,或者有什么好的学习路线!正如我所说的,我是学习.net出身,自认为基础还可以,对大数据和云计算方面充满了好奇和向往,就想找个这方面的工作,并且想学习学习这方面的知识,不知道各位有没有好的意见,或者说这样可行吗? 解决方案 补充一下,我是本科生,所以基础知识方面应该还可以! 解决方案二: 云计算本身没有什么好学的,除非你是做基础架构的运维.云计算是商业模式而不是技术,这种模式

大数据云计算学习路线图(纯属个人看法和观点)

[ps:以下纯属个人观点和看法,有什么不对的,还请多多指教.] 1:之前发过一个Java攻城狮的学习路线图[ps:挺详细的~~~]:http://www.cnblogs.com/biehongli/p/5754555.html 恰恰是这个Java攻城狮学习路线图使我在学习编程的路上看到了希望,使迷茫的我找到了方向.现在还为此在努力...... 2:而今天呢,结合一些培训机构的学习路线图,今天发一个大数据云计算的学习路线图,也许有的人心中会有些疑问说这货是骗浏览量,点击量的吧,可是原因不是这样的哦

大数据与传统数据库是互补关系

文章讲的是大数据与传统数据库是互补关系,在全球大数据生态圈中,Hadoop堪称其中最为核心的技术.     由非营利组织管理的Hadoop平台,尽管推行开源模式,但企业并不是拿来就可以用,它需要经过进一步的加工和修缮,由此孕育了多家大数据商业开发公司,如Cloudera.MapR.Hortonworks等.这些公司的商业模式就是开发商业化的Hadoop分发版,并对外销售.     在这些Hadoop分发版开发公司中,Hortonworks刚刚完成IPO,算是最早的一家,目前市值约10亿美元.而要

监管农资市场 大数据云计算呼之欲出

日前,国家工商总局在成都召开农资市场监管工作研讨会,针对当前农资市场的新变化和农业生产的新形式,会议明确工商系统要积极构建 "依法监管.信用约束.技术支撑.社会共治"的农资市场监管新格局:探索利用大数据.云计算.物联网等信息技术加强农资市场的监督管理,提高假冒伪劣农资的发现追溯能力,实现农资来源可查.去向可追.责任可究的新型监管体系. 现有模式难以全面顾及"在'2016红盾春雷行动'中,我们共抽检了10批次化肥,4批次农膜,化肥有5批次不合格,农膜全合格,对不合格商家已进行了

马云:大数据云计算是阿里未来核心战略

本文讲的是马云:大数据云计算是阿里未来核心战略[IT168 云计算]北京时间10月8日晚间,阿里巴巴集团董事局主席马云和CEO张勇在年报致投资者的公开信中表示,全球化.农村经济和大数据云计算将成为阿里未来十年的发展大方向,并表示将不惜一切投入发展数据技术,让数据和计算能力成为普惠经济的基础. "狭义的电子商务仅仅是今天阿里巴巴集团战略的一部分."马云在公开信中表示,阿里巴巴的战略是打造未来商业社会的基础设施,电子商务只是整体战略的第一步,"我们非常明白只有依靠互联网技术和大数