第1章 构建Hadoop集群
Hadoop是一款免费开源的分布式存储和计算平台。在构建该平台后,用户可以使用商用硬件中的集群来存储和处理大量数据。在过去的数年中,Hadoop已经成为大数据项目的事实标准。本章会讲述以下内容:
选择Hadoop集群硬件。
Hadoop发行版。
为Hadoop集群选择操作系统。
本章会讲解为Hadoop集群选择和配置硬件的概念,还会介绍不同的Hadoop发行版(其数量每年都在增加)以及它们之间的异同点。
无论读者是Hadoop管理员还是架构师,构建集群的第一步是确定使用硬件的类型以及成本,但是在读者下单购买硬件准备大干一场之前还有一些必要的问题需要考虑。这些问题都与集群设计有关,比如集群需要存储的数据量、数据增长率的估计、主要的数据访问模式,集群是主要用于预定义的计划任务,还是用于探索性数据分析的多租户环境?Hadoop的架构和数据访问模型具有极大的灵活性,它能够承载不同类型的工作量,比如批处理海量数据或者配合诸如Impala这样的项目进行实时分析。
某些集群更适合于特定类型的任务,因此在选择硬件阶段就应考虑到集群的设计以及目的,这是非常重要的。在处理由成百上千个服务器所组成的集群时,最初有关硬件和总体布局的决定会对集群的性能、稳定性以及对应的成本起着至关重要的作用。
时间: 2024-09-16 12:52:17