第1章 HBase集群安装 HBase管理指南本章内容: 快速入门 Amazon EC2的安装及准备 Hadoop安装 ZooKeeper安装 内核参数设置修改 HBase安装 Hadoop/ZooKeeper/HBase基本配置 多个高可靠性(HA)主节点的安装 时间: 2024-10-30 19:43:37
前 言 HBase管理指南作为一个开源.分布式的大数据存储系统,HBase可以处理记录数达几十亿条.字段数达数百万个的大数据,并且只需依靠一些由商品化硬件而构成的集群就可以运行.如果你正在寻找一种能够实时存储和访问海量数据的方法,那么你就必须研究一下HBase. <HBase管理指南>一书提供了一些实用的例子和一些简单详尽的操作步骤,使你可以轻松地管理HBase.本书的章节涵盖了在云计算环境中管理一个完全分布式的高可用HBase集群所需的各种过程.处理如此海量的数据意味着建立起一套有组织.可管
第2章 Spark集群的安装与部署 Spark的安装简便,用户可以在官网上下载到最新的软件包. Spark最早是为了在Linux平台上使用而开发的,在生产环境中也是部署在Linux平台上,但是Spark在UNIX.Windwos和Mac OS X系统上也运行良好.不过,在Windows上运行Spark稍显复杂,必须先安装Cygwin以模拟Linux环境,才能安装Spark. 由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop.下面介绍Spark集群的安装
1.2 快速入门 HBase有两种运行模式:单机运行(Standalone)模式和分布式运行(Distributed)模式.单机运行模式是HBase的默认模式.在单机模式中,HBase会使用一个本地文件系统来代替HDFS,并且在同一个JVM上运行所有的HBase守护进程和HBase管理的ZooKeeper实例. 本节将介绍单机HBase的安装.内容包括:安装HBase.以单机模式启动HBase.在HBase Shell中创建一张表.插入记录.清除记录以及关闭单机模式HBase实例. 1.2.1
1.4 安装Hadoop 完全分布式的HBase要运行在HDFS之上.对于完全分布式的HBase集群来说,其主守护进程(HMaster)通常要运行在HDFS主节点所在的服务器(NameNode)上,而其从守护进程(HRegionServer)要运行在HDFS从节点所在的服务器(我们称之为DataNode)上. HBase并不必须使用Hadoop MapReduce,所以我们也不需要启动MapReduce的守护进程.本节也会对MapReduce的安装进行介绍,因为你毕竟有可能要在HBase上运行M
1.7 HBase安装 完全分布式运行的HBase实例要在HDFS上运行一个或多个主节点(HMaster)和多个从节点(RegionServer).它使用一个可靠的ZooKeeper仲裁团来协调HBase集群中的所有组件,包括主节点.从节点和客户端. HMaster并非必须与HDFS NameNode运行在同一服务器上,但对小集群来说,为了便于管理通常会让它们运行在同一台服务器上.RegionServers通常被配置在HDFS的DataNode服务器上运行.在Datanode服务器上运行Regi
1.1 简介 本章将介绍HBase集群的安装方法,首先将介绍基本的单机运行模式的HBase实例的安装方法,然后介绍如何在Amazon EC2上安装完全分布式运行的高可靠性HBase集群. 根据Apache HBase主页上的定义: HBase是Hadoop上的数据库.它适合在需要对大数据进行随机且实时读写的情况下使用.其目标是在基于商品化硬件构建的集群之上存储那些非常大的表--比如那些有数百万个字段和数十亿条记录的大表. HBase可以在任何文件系统上运行.比如说,无论是在EXT4本地文件系统.
1.3 Amazon EC2的安装及准备 Amazon EC2(Amazon Elastic Compute Cloud)是一种可在云计算环境中提供具有可伸缩行的计算能力的Web服务.通过使用Amazon EC2,我们只需用很低的成本就可以轻松地体验到完全分布式运行的HBase的运行模式.本书中用来展示HBase各种管理操作的所有服务器都运行在Amazon EC2上. 本节将介绍如何安装Amazon EC2环境,这是在EC2上安装HBase的准备工作.我们将建立在Amazon EC2上一个名称服
1.8 Hadoop/ZooKeeper/HBase基本配置 在进行下一步工作之前,我们需要进行一些基本设置的调优.这都是一些非常基本和非常重要的Hadoop(HDFS).ZooKeeper和HBase设置,你应该在安装好集群后立刻修改这些设置. 有些设置会对数据持久性或集群可用性产生影响,因此必须进行配置,而另外一些设置则是为保证HBase顺畅运行而推荐你进行的设置. 这些配置的设置值取决于你的硬件.数据量和集群的规模.本节将对此进行一种指南式的描述.你可能需要根据自己的具体环境对这些设置值进