大数据道场(HDP SandBox) 初探

这里的大数据道场是以HDP sandbox 为基础的,安装好了virtual box,导入了sandbox镜像之后,启动虚拟机,来看看我们的大数据道场吧。

访问方式

通过SSH的终端访问是不二之选


  1. ssh root@127.0.0.1 -p 2222 

输入用户名/密码后就可以进入我们的道场主机了,命令交互与在一台ubantu Linux 主机上没什么不同。

如果不喜欢ssh,或者是windows的用户,也可以使用WEB Shell。 在浏览器中输入:


  1. http://127.0.0.1:4200 

如下图所示,与SSH 没有什么大的区别。

当然了,还可以从VM 的终端登录,按fn + alt +f5进入即可。

文件传输

在本机和sandbox 之间主要是通过SCP进行的。

本地文件复制到sandbox 中:


  1. scp -P 2222 ~/Downloads/x.y.z root@127.0.0.1:/root 

andbox 文件复制到本地:


  1. scp -P 2222 root@127.0.0.1:/sandbox-dir-path/xyz /localpath 

还可以通过虚拟机的共享目录实现,甚至在sandbox 上搭一个ftp server。

道场中的基础设施

Hadoop 发布版中比较有名的是CDH和HDP,两者的主要区别是CDH 通过Cloudera和hue 来管理集群及节点中的组件,而HDP是通过Ambri 完成的。

一般的,通过访问 http://127.0.0.1:8080 就可以通过Ambri 来浏览和管理。但是为了管理服务,需要以管理员的身份登录ambri。Sandbox 2.4 中需要通过执行脚本来重置ambri的管理员密码。


  1. Abel-Mac-Pro:~ abel$ ssh root@127.0.0.1 -p 2222     
  2. root@127.0.0.1's password:   
  3. Last login: Mon Sep 26 01:47:03 2016     
  4. [root@sandbox ~]# ambari-admin-password-reset   
  5. Please set the password for admin:   
  6. Please retype the password for admin:   
  7. The admin password has been set. 
  8. Restarting ambari-server to make the password change effective...  
  9. Using python  /usr/bin/python2   
  10. Restarting ambari-server    
  11. Using python  /usr/bin/python2   
  12. Stopping ambari-server    
  13. Ambari Server stopped    
  14. Using python  /usr/bin/python2   
  15. Starting ambari-server    
  16. Ambari Server running with administrator privileges.    
  17. Organizing resource files at /var/lib/ambari-server/resources...    
  18. Server PID at: /var/run/ambari-server/ambari-server.pid    
  19. Server out at: /var/log/ambari-server/ambari-server.out    
  20. Server log at: /var/log/ambari-server/ambari-server.log    
  21. Waiting for server start....................    
  22. Ambari Server 'start' completed successfully.    
  23. [root@sandbox ~]#  

现在,就可以用ambri的admin帐号登录,看看道场中的基础设施了。

HDFS

HDFS 是Hadoop集群中数据存储的头等公民。数据在集群数据节点中自动复制。

MapReduce2

众所周知,mapreduce分为两个阶段,Map阶段:首先将输入数据进行分片,然后对每一片数据执行Mapper程序,计算出每个词的个数,之后对计算结果进行分组,每一组由一个Reducer程序进行处理,到此Map阶段完成。

Reduce阶段:每个Reduce程序从Map的结果中拉取自己要处理的分组(叫做Shuffling过程),进行汇总和排序(桶排序),对排序后的结果运行Reducer程序,最后所有的Reducer结果进行规约写入HDFS。

MapReduce2 是运行在YARN上的。

YARN

YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。

Tez

Tez是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序。Tez产生的主要原因是绕开MapReduce所施加的限制。

Hive

Hive以类SQL方式简单而又强大地从HDFS中查询数据. 在用Java写了10行代码的MapReduce地方,在Hive中, 只需要一条 SQL 查询语句.

HBase

Hbase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”,是Google Bigtable的开源实现,利用Hadoop HDFS作为其文件存储系统。

Pig

Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。Pig 适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。

Sqoop

Sqoop是一个从结构化数据库传说大量数据到HDFS. 使用它,既可以从一个外部的关系型数据库将数据导入到HDFS, Hive, 或者 HBase, 也可以Hadoop 集群导出到一个关系型数据库或者数据仓库.

Oozie

Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储工作流定义和当前运行的工作流实例,包括实例的状态和变量。Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。

Zookeeper

Zookeeper 分布式服务框架主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

Falcon

Falcon 是一个面向Hadoop的、新的数据处理和管理平台,设计用于数据移动、数据管道协调、生命周期管理和数据发现。它使终端用户可以快速地将他们的数据及其相关的处理和管理任务“上载(onboard)”到Hadoop集群,可以减少应用程序开发和管理人员编写和管理复杂数据管理和处理应用程序的痛苦。

Storm

Storm是一个分布式高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

Flume

当查看生成的摄取日志的时候,可以使用Apache Flume; 它是稳定且高可用的,提供了一个简单,灵活和基于流数据的可感知编程模型。基本上,仅通过配置管理不需要写一行代码就可以陪着一个数据流水线。

Ambri Metrics

Ambari Metrics System 简称为 AMS,它主要为系统管理员提供了集群性能的监察功能。Metrics 一般分为 Cluster、Host 以及 Service 三个层级。Cluster 和 Host 级主要负责监察集群机器相关的性能,而 Service 级别则负责 Host Component 的性能。

Atlas

Atlas 是一个可伸缩和可扩展的核心功能治理服务。企业可以利用它高效的管理 Hadoop 以及整个企业数据生态的集成。核心功能包括:数据分类、集中审计、搜索、安全和策略引擎。

Kafka

Apache Kafka 是一个由Linkedin开发的订阅-发布消息的分布式应用。是一个持久化消息的高吞吐量系统 , 支持队列和话题语意, 使用 ZooKeeper形成集群节点。 详情参见kafka.apache.org.

Knox

knox是一个访问hadoop集群的restapi网关,它为所有rest访问提供了一个简单的访问接口点,能完成3A认证(Authentication,Authorization,Auditing)和SSO(单点登录)等。

Ranger

Ranger是一个hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的hadoop生态圈的所有数据权限。

Slider

Slider 是一个 Yarn 应用,它可以用来在 Yarn 上部署并监控分布式应用。Slider 可以在应用运行期随意扩展或者收缩应用。Slider工具是一个Java的命令行应用,它会把信息持久化为JSON文档并存储到HDFS。当集群启动后,我们可以使用命令扩展或者收缩集群。集群也可以被停止或者重启。

Spark

Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。Spark则允许程序开发者使用有向无环图(DAG)开发复杂的多步数据管道。而且还支持跨有向无环图的内存数据共享,以便不同的作业可以共同处理同一个数据。

Spark运行在现有的Hadoop分布式文件系统基础之上(HDFS)提供额外的增强功能。它支持将Spark应用部署到现存的Hadoop v1集群(with SIMR – Spark-Inside-MapReduce)或Hadoop v2 YARN集群甚至是Apache Mesos之中。

Zeppelin Notebook

Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持Scala, java, shell, markdown等。Zeppelin 提供了内置的 Apache Spark 集成。Zeppelin的Spark集成提供了:

  • 自动引入SparkContext 和 SQLContext
  • 从本地文件系统或maven库载入运行时依赖的jar包。更多关于依赖载入器
  • 可取消job 和 展示job进度

HDP Sandbox 默认为我们提供了如此多的组件服务,几乎涵盖了hadoop 生态系统,完了么?没有,还可以用管理员的身份来增加/启动/关闭 服务,例如Accumulo,Mahout,NiFi,Ranger KMS,SmartSense等,甚至可以自定义服务的。

本文作者:半吊子全栈工匠

来源:51CTO

时间: 2024-12-31 10:15:52

大数据道场(HDP SandBox) 初探的相关文章

[大数据之Sqoop] —— Sqoop初探

Sqoop是一款用于把关系型数据库中的数据导入到hdfs中或者hive中的工具,当然也支持把数据从hdfs或者hive导入到关系型数据库中. Sqoop也是基于Mapreduce来做的数据导入. 关于sqoop的原理 sqoop的原理比较简单,就是根据用户指定的sql或者字段参数,从数据库中读取数据导入到hive或者hdfs中.也支持基于数据库导出工具导出,不过受限于数据库的版本. 在导出的过程中,sqoop会自动切分mapreduce任务.比如某个字段的主键是从1到1000,那么当设置num-

大数据:商业或技术的挑战?

John Bantleman是RainStor的CEO,有着20多年的从业经验.他在<连线>上发表了一篇文章称大数据在2013年将成为企业需要面对的重要问题之一,并且对今年大数据带来的挑战进行了5个方面的预测. 以下为文章全文: 2012年,大数据已经被证明是一个重要的趋势,并且对来年的大数据市场进行了很多的预测.现实情况是,客户将最终决定大数据的发展趋势,也将决定使用哪些技术解决方案来解决他们的独特业务问题. 在如今由数据驱动发展的世界里,企业为了保持竞争力,大数据已成为它们必须解决问题.就

2013年预测:大数据带来的五大挑战

本文讲的是2013年预测:大数据带来的五大挑战,John Bantleman是RainStor的CEO,有着20多年的从业经验.他在<连线>上发表了一篇文章称大数据在2013年将成为企业需要面对的重要问题之一,并且对今年大数据带来的挑战进行了5个方面的预测. 以下为文章全文: 2012年,大数据已经被证明是一个重要的趋势,并且对来年的大数据市场进行了很多的预测.现实情况是,客户将最终决定大数据的发展趋势,也将决定使用哪些技术解决方案来解决他们的独特业务问题. 在如今由数据驱动发展的世界里,企业

大数据发展的问题剖析及未来预测

RainStor的CEO--John Bantleman,有着超过20年的从业经验.最近他在<连线>杂志上发表了一篇关于大数据的文章,文章称大数据将在2013年变成企业需要面对的几大重要问题之一,同时他也对今年大数据带来的挑战进行了5个方面的预测. 以下为文章全文: 2012年,大数据已经被证明是一个重要的趋势,并且对来年的大数据市场进行了很多的预测.现实情况是,客户将最终决定大数据的发展趋势,也将决定使用哪些技术解决方案来解决他们的独特业务问题. 在如今由数据驱动发展的世界里,企业为了保持竞

地球观测领域的若干大数据问题初探

地球观测领域的若干大数据问题初探 李国庆研究员 中国科学院遥感与数字地球研究所 --地球观测领域为什么会有大数据问题?--地球观测大数据问题的辨析--若干大数据应用案例的场景和挑战分析 地球观测领域的若干大数据问题初探

公众互助云简介:大数据时代下新形云计算模式初探

最近在看商业模式相关的书籍,脑子里有了一个云计算模式,思考了很久,仍然模糊,还是分享出来梳理一下自己的思路,也希望听取不同声音和意见,感觉自己才疏学浅,可能下文会有一些技术问题和误区,欢迎各界人士批评指正. 引言 在互联网和全球化时代下,有两大技术推进着社会历史车轮的前进.一个是云计算的应运而生,IAAS.PAAS.SAAS等服务模式也随之发展起来,传统产品模式正在向云端服务模式转变.另一个是大数据分析与处理技术,可有效处理信息数据爆炸式增长,比如构建高扩展性.容错性的GFS或HDFS分布式文件

理财农场大数据初探之路

 概述 不以需求为目的的技术研究都是耍流氓     由于公司业务的快速发展,以及运营部门的需求,需要实现投资用户的月账单功能. 数据背景     目前平台投资用户57万多,投资流水数据已超过千万级,另外还需要统计用户的充值.提现.回款本金.利息.奖励.红包.区分各种产品的分类统计(定期.活期).历史投资分布.收益趋势.打败多少用户.月度理财之星等等指标. 技术选型背景        在此之前就有类似需求,统计2016年投资用户的年度账单.当时部门几个核心的人员也针对年度账单做了分析及技术选型,有

大数据在统计中的应用初探

大数据是信息时代的必然产物,是人们在日常工作.学习.生活中,使用以现代网络.特别是以互联网为特征的现代信息技术和其他各种电子计量设备而产生的海量信息.对海量信息的采集.存储.分析.整合.控制而得到的数据就是大数据.中央<关于深化统计管理体制改革提高统计数据真实性的意见>中指出,大力推动大数据在政府统计工作中的应用,将电子化行政记录和各类交易.交互.传感等大数据作为政府统计基础数据的重要来源,努力构建现代化新型统计调查体系. 大数据统计应用有什么意义?还有哪些问题和障碍?如何加快大数据在统计工作

大数据生态圈&amp;Docker发展概况:最新动态及国内情况

目录: [大数据生态圈] Hadoop Hadoop 3.0.0 Alpha版本发布 Druid Druid 0.9.2版本发布 Kudu Apache Kudu 1.1.0正式发布 HAWQ HAWQ 2.1.0.0企业版正式发布 [Docker发展概况] 官方版本发布情况 国内情况 落地情况 感谢名单   大数据生态圈 一.Hadoop   Hadoop 3.0.0 Alpha版本发布   由于Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,所以H