《Hadoop集群与安全》一1.3 为Hadoop集群选择操作系统

1.3 为Hadoop集群选择操作系统

为Hadoop集群选择操作系统是一项相对简单的任务。Hadoop核心以及生态系统组件都是由Java编写的,当然其中也有一些例外。虽然Java代码本身就是跨平台的,但是目前Hadoop只能运行在类似Linux这样的系统上。理由是许多设计决定都是以Linux进行考虑的,因此类似于“开始/停止”脚本以及权限模型(permissions model)这样核心Hadoop组件都依赖于Linux环境。
Hadoop在Linux平台上的实现方式都是相同的并且在不同的版本上都有良好的表现:Red Hat、CentOS、Debian、Ubuntu、Suse以及Fedora。在所有这些版本上运行Hadoop都没有特别的要求。如果所有的依赖项解析以及命令解释器支持脚本都运行良好,那么Hadoop也能够成功运行在其他类似POSIX(比如Solaris或者BSD)的操作系统上。目前大部分Hadoop产品的安装都运行在Linux上,我们之后的讲解也会将重点放在该操作系统上。本书中的示例都运行在CentOS上,和Red Hat一样,它也是应用最为广泛的实际应用系统之一。
Apache Hadoop提供了源文件以及用于稳定发行版的RPM以及DEB包。目前它是1.0版本的一个分支。我们可以根据源代码构建Hadoop,但是对于大部分用户我们并不推荐这么做,因为这要求构架大型Java项目的经验以及精细的依赖项解析。Cloudera以及Hortonworks发行版为用户提供了方便的途径在服务器上安装存储库以及所需要的包。
Hadoop并没有严格要求在所有节点上运行相同的操作系统,但是根据经验来说保持节点配置的一致性更有利于我们进行管理。

时间: 2024-09-27 03:00:39

《Hadoop集群与安全》一1.3 为Hadoop集群选择操作系统的相关文章

Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误

25.集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager 25.1.2服务器准备 本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本: ü Vmware 11.

《Hadoop实战第2版》——1.7节Hadoop集群安全策略

1.7 Hadoop集群安全策略众所周知,Hadoop的优势在于其能够将廉价的普通PC组织成能够高效稳定处理事务的大型集群,企业正是利用这一特点来构架Hadoop集群.获取海量数据的高效处理能力的.但是,Hadoop集群搭建起来后如何保证它安全稳定地运行呢?旧版本的Hadoop中没有完善的安全策略,导致Hadoop集群面临很多风险,例如,用户可以以任何身份访问HDFS或MapReduce集群,可以在Hadoop集群上运行自己的代码来冒充Hadoop集群的服务,任何未被授权的用户都可以访问Data

《Hadoop实战手册》一1.3 使用distcp实现集群间数据复制

1.3 使用distcp实现集群间数据复制 Hadoop分布式复制(distcp)是Hadoop集群间复制大量数据的高效工具.distcp是通过启动MapReduce实现数据复制的.使用MapReduce的好处包含可并行性.高容错性.作业恢复.日志记录.进度汇报等.Hadoop分布式复制(distcp)对在开发集群环境.研究集群环境和生产集群环境之间进行数据复制十分有用. 准备工作首先必须保证复制源和复制目的地能够互相访问. 最好关闭复制源集群map任务的推测机制,可以在配置文件mapred-s

《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序

1.9 在分布式集群环境中运行WordCount程序 Hadoop MapReduce实战手册本节将描述如何在分布式集群中运行作业. 准备工作启动Hadoop集群. 操作步骤现在让我们在分布式的Hadoop环境中运行WordCount示例程序. 把你的Hadoop发行版目录的README.txt文件复制到HDFS文件系统的/data/input1位置,作为我们前一节中编写的WordCountMapReduce示例的输入数据. >bin/hadoopdfs -mkdir /data/ >bin/

一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构.  注意:HADOOP的核心组件有: 1)HDFS(分布式文件系统) 2)YARN(运算资源调度系统) 3)MAPREDUCE(分布式运算编程框架)       Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode

Solr集群搭建,zookeeper集群搭建,Solr分片管理,Solr集群下的DataImport,分词配置。

1   什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud.当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使 用SolrCloud来满足这些需求. SolrCloud是基于Solr和Zookeeper的分布式搜索方案,它的主要思想是使用Zookeeper作为集群的配置信息中心. 它有几个特色功能: 1)集中式的配置信息 2)自动容

Oracle 10g RAC集群安装部署过程中如何安装RAC集群套件

一.首先解压集群套件包: gunzip 10201_clusterware_linux_x86_64.gz cpio -idmv < 10201_clusterware_linux_x86_64.cpio 解压放置的地方需要有oracle用户使用的权限 二.开始安装oracle RAC集群套件, 2.2.1.安装之前首先关闭两个节点的防火墙,Selinux不然是无法通过安装的 2.2.2.安装之前修改系统版本,来欺诈oracle数据库,然后执行xhost+ 2.2.3.完成上面的配置之后,使用o

SureHA集群添加镜像磁盘资源后无法启动集群的解决方法

SureHA集群添加镜像磁盘资源后无法启动集群,如下图:     解决方案: 添加镜像磁盘资源需要手动启动镜像代理,如下图,随后可以正常启动集群,或者直接重启2节点,启动后镜像代理可以正常启动.    

Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此对:译者:贾艳成 QQ:496830205 表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方式,发送