Hadoop 集群搭建之机器选购

两个概念：

IO受限

在从硬盘或者网络读取数据时遇到瓶颈

CPU受限

处理数据时遇到瓶颈

带宽受限

写入数据网络带宽不够，导致无法实施传递数据

常见业务划分

硬盘容量敏感型业务

这类业务对读写延迟以及吞吐量都没有很大的要求，唯一的需要就是硬盘容量。比如大多数离线读写分析业务，上层应用一般每隔一段时间批量写入大量数据，然后读取也是定期批量读取大量数据。特点：离线写、离线读，需求硬盘容量

带宽敏感型业务

这类业务大多数写入吞吐量很大，但对读取吞吐量没有什么要求。比如日志实时存储业务，上层应用通过kafka将海量日志实时传输过来，要求能够实时写入，而读取场景一般是离线分析或者在上次业务遇到异常的时候对日志进行检索。特点：在线写、离线读，需求带宽
IO敏感型业务

相比前面两类业务来说，IO敏感型业务一般都是较为核心的业务。这类业务对读写延迟要求较高，尤其对于读取延迟通常在100ms以内，部分业务可能要求更高。比如在线消息存储系统、历史订单系统、实时推荐系统等。特点：在（离）线写、在线读，需求内存、高IOPS介质

二：内存需要

1. 高峰值计算：

1）假设高峰期有10W个用户，每个用户每秒产生一条数据，一年的数据量是10W*3600*24*365=3 W亿条
2）假设每条数据200大小，总需内存为600万亿B=573T

二：各项硬件及意义

1.CPU

2.磁盘

3.

时间： 2024-09-24 03:01:29

Hadoop 集群搭建之机器选购的相关文章

hadoop集群搭建详述

1.集群搭建策略分析: 我手上只有3台电脑,两台华硕笔记本i7.i3的处理器,一台台式机Pentium4处理器.为了更好的测试zookeeper的功能, 我们总共需要6台ubuntu(Ubuntu 14.04.3 LTS)的主机.以下是我的主机分布策略: i7:开启4台ubuntu虚拟机分别是虚拟机名内存硬盘网络连接 master 1G 20G 桥接 master2 1G 20G 桥接 rm 512M 20G 桥接 slave3 1G 20G 桥接 i3: 安装ubuntu系统 ,作为

hadoop集群搭建完成，其他进程都启动了，但是namenode没有启动，查看日志，报错了

问题描述 hadoop集群搭建完成,其他进程都启动了,但是namenode没有启动,查看日志,报错了 hadoop集群搭建完成,其他进程都启动了,但是namenode没有启动,查看namenode的日志信息,报错了, 192.168.100.70:8485: Call From anlulu-1/192.168.100.10 to anlulu-7:8485 failed on connection exception: java.net.ConnectException: 拒绝连接; For

zkfc-萌妹子求解hadoop集群搭建 ZKFC报错

问题描述萌妹子求解hadoop集群搭建 ZKFC报错 hdfs zkfc -formatZK执行后:WARNING: Before proceeding ensure that all HDFS services and failover controllers are stopped! Proceed formatting /hadoop-ha/mycluster? (Y or N) 16/02/26 01:18:56 INFO ha.ActiveStandbyElector: Sessi

Hadoop集群搭建

目的本文描述了如何安装.配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群. 如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节. 先决条件确保在你集群中的每个节点上都安装了所有必需软件. 获取Hadoop软件包. 安装安装Hadoop集群通常要将安装软件解压到集群内的所有机器上. 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker.这些机器是masters.余下的机器即作为DataNode也作为Ta

Hadoop 集群搭建

在图书馆看到关于 Hadoop 的书,刚好有空,就借回来了看看.然后在寝室尝试搭建环境,用了一天才弄好. Hadoop 的运行模式有单机模式.伪分布式模式.完全分布式模式.我选择的时完全分布式模式安装. 因此需要多台机器.但哪来的多台机器呢,当然是虚拟机啦. 因为 Hadoop 只能运行在 *nix 环境中,因此我在 Ubuntu 中又用 VirtualBox 安装了两台虚拟机.一台作为 master, 一台作为 slave1. 因为怕搞坏宿主机器,因此没在物理机上折腾.集群,通常是有好多台机

Cloudera Manager 5 和 CDH5 本地（离线）安装指南（Hadoop集群搭建）

转载请注明出处:http://www.wangyongkui.com/hadoop-cdh5. 系统环境 4台联想R510服务器,其中master节点4核心.8GB,其它节点双核心.4GB. 网卡:100M. 共有硬盘6TB. 网络环境内网. Centos6.5 x64(安装系统时尽量把开发包安装齐全,另master节点需要Mysql可以在安装系统时勾选). 准备工作卸载系统自带OPEN-JDK(所有节点) 安装好的Centos系统有时会自动安装OpenJdk,用命令java -version

Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误

25.集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager 25.1.2服务器准备本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本: ü Vmware 11.

hadoop集群环境搭建

1 hadoop集群规划 1.1 共有A.B.C 三台机器; 1.2 A 作为master,B作为slave1,C作为slave2; 1.3 IP &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;A :192.168.1.103;B:192.168.1.104;C:192.168.1.101; 1.4 OS:centos6.2(64bit) 2 hadoop集群搭建步骤 2.1 创建 hadoop用户,并使该用户拥

【Big Data】HADOOP集群的配置（一）

Hadoop集群的配置(一) 1. 实验准备 1.1 目的: 在虚拟机环境下,让同学们学会从零开始配置Hadoop-2.2集群,并尝试在真实环境下搭建集群. 1.2 主要内容: 物理机器总共4台,想配置基于物理机的Hadoop集群中包括4个节点: 1 个 Master, 3个 Salve ,节点之间局域网连接,可以相互 ping通.IP的分布如表1所示. 表1 4个节点的IP地址分配及角色 Ma