《Hadoop与大数据挖掘》——1.2 大数据平台

1.2 大数据平台

大数据平台有哪些呢?

一般认为大数据平台分为两个方面,硬件平台和软件平台。硬件平台一般如Open-Stack、Amazon云平台、阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等。而软件平台则是大家经常听到的,如Hadoop、MapReduce、Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务。

Hadoop生态圈大数据平台,可以大概分为3种:Apache Hadoop(原生开源Hadoop)、Hadoop Distribution(Hadoop发行版)、Big Data Suite(大数据开发套件)。Apache Hadoop 是原生的,即官网提供的,只包含基本的软件;Hadoop Distribution是一些软件供应商提供的,具有的功能相对多,这个版本有收费版也有免费版,用户可选;而大数据开发套件则是一些大公司提供的集成方案,提供的功能更多,但是相应的也比较贵。

Apache Hadoop是开源的,用户可以直接访问或更改代码。它是完全分布式的,配置包含用户权限、访问控制等,再加上多种生态系统软件支持,比较复杂。这里涉及版本不兼容性问题。所以该版本比较适合学习并理解底层细节或Hadoop详细配置、调优等。

Hadoop Distribution版本简化了用户的操作以及开发任务,比如可以一键部署等,而且有配套的生态圈支持以及管理监控功能,如业内广泛使用的HDP、CDH、MapR等平台。CDH是最成型的发行版本,拥有最多的部署案例,而且提供强大的部署、管理和监控工具,其开发公司Cloudera贡献了自己的可实时处理大数据的Impala项目。HDP是100%开源Apache Hadoop的唯一提供商,其开发公司 Hortonworks开发了很多增强特性并提交至核心主干,并且Hortonworks为入门者提供了一个非常好的、易于使用的沙盒。MapR为了获取更好的性能和易用性而支持本地UNIX文件系统而不是HDFS(使用非开源的组件),并且可以使用本地UNIX命令来代替Hadoop命令。除此之外,MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。当需要一个简单的学习环境时,就可以选用这个版本,当然,针对一些企业也可以选择这个版本的收费版,也是有很多软件支持的。

Big Data Suite(大数据套件)是建立在Eclipse之类的IDE之上的,其附加的插件极大地方便了大数据应用的开发。用户可以在自己熟悉的开发环境之内创建、构建并部署大数据服务,并且生成所有的代码,从而做到不用编写、调试、分析和优化MapReduce代码。大数据套件提供了图形化的工具来为你的大数据服务进行建模,所有需要的代码都是自动生成的,只需配置某些参数即可实现复杂的大数据作业。当企业用户需要不同的数据源集成、自动代码生成或大数据作业自动图形化调度时,就可以选择使用大数据套件。

时间: 2024-09-08 17:46:36

《Hadoop与大数据挖掘》——1.2 大数据平台的相关文章

5大架构:细数数据平台的组成与扩展

导读:One size does not fit all! 数据处理平台已不集中于传统关系型数据库,各种其他平台层出不穷,也各有其适用范围. 从哪些角度去理解各种数据处理平台的设计思想及发展演进呢?下面我们从几个角度讨论一下: 一.单机存储引擎设计(数据的位置) 从某种意义上说,当我们处理数据的时候,实际上是在管理数据的位置,管理数据在CPU的位置,数据相对其他数据的位置.CPU特别适合处理顺序性操作数据指令,这样他可以进行数据预取.但是随机读取操作使得预取功能几乎失效,好多预取到缓存.前端总线

教你如何设计公司内部的数据平台

何为数据产品?从广义上讲,一切以数据作为驱动或者核心的都叫数据产品(例如数据报表平台.DMP.搜索与精准化产品.风控产品等等),从狭义上讲,就是公司的内部数据平台.今天和大家讨论的,主要是关于公司的内部数据平台的搭建. 公司的内部数据平台,主要作用是提供给公司内部所有部门人员使用,使公司内部的所有业务能够通过数据来驱动和决策.简单点讲就是通过数据平台来驱动公司内部的数据化运营. 那么如何设计一款好用的数据产品呢? 数据产品经理本身就是一个合格的数据分析师,所以数据产品经理需要深刻的了解业务,需要

如何设计公司内部的数据平台

何为数据产品?从广义上讲,一切以数据作为驱动或者核心的都叫数据产品(例如数据报表平台.DMP.搜索与精准化产品.风控产品等等),从狭义上讲,就是公司的内部数据平台.今天和大家讨论的,主要是关于公司的内部数据平台的搭建. 公司的内部数据平台,主要作用是提供给公司内部所有部门人员使用,使公司内部的所有业务能够通过数据来驱动和决策.简单点讲就是通过数据平台来驱动公司内部的数据化运营. 那么如何设计一款好用的数据产品呢? 1.数据产品经理本身就是一个合格的数据分析师,所以数据产品经理需要深刻的了解业务,

《Hadoop与大数据挖掘》一1.2 大数据平台

1.2 大数据平台 大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台.硬件平台一般如Open-Stack.Amazon云平台.阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等.而软件平台则是大家经常听到的,如Hadoop.MapReduce.Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务. Hadoo

《Hadoop与大数据挖掘》一导读

前 言 为什么要写这本书 最早提出"大数据"时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来." 早在2012年,大数据(big data)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当

Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此对:译者:贾艳成 QQ:496830205 表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方式,发送

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析   低成本的Blob存储是一个强大的,通用的Hadoop兼容Azure存储解决方案无缝集成HDInsight.通过Hadoop分布式文件系统(HDFS)接口,完整的组件集合在HDInsight可以 在Blob存储数据的直接操作.在本教程中,学习如何建立一个容器的Blob存储,然后在里面处理的数据. 在BLOB存储中存储的数据能够用于计算的HDInsight集群被安全地删除,而不会丢失用户数据. 注意: 该ASV://语法中不

Hadoop:你不得不了解的大数据工具

本文讲的是Hadoop:你不得不了解的大数据工具,如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这

Hadoop高级编程——构建与实现大数据解决方案---部分

问题描述 Hadoop高级编程--构建与实现大数据解决方案---部分这篇文档,译自美国资深专家著作,介绍了Hadoop许多其生态系统演化的流行方向,和Hadoop在企业里的项目应用,是国内很少见的重要资料.值得收藏和学习. 解决方案