淘宝Hadoop集群机器硬件配置

淘宝">Hadoop集群机器硬件配置

国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、腾讯、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。

淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系统日志以及爬虫数据,数量总量已经超过17个PB,每天净增长20T左右。每天在Hadoop集群运行的 MapReduce任务有超过4万(有时会超过6万),其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行,3-4个小时内全部完成。每天读数据在2PB左右,写数据在1PB左右。

this picture is from Taobao

Hadoop包括两类节点Master和Slave节点,

Master节点包括Jobtracker,Namenode, SecondName, Standby,

硬件配置:16CPU*4核,96G内存。

Slave节点主要是TaskTracker和DataNode,

硬件配置存在一定的差别:8CPU*4核-16CPU*4核,16G-24G内存

(注:通常是一个slave节点同时是TaskTracker和DataNode,目的是提高数据本地性data locality)。

每个slave节点会划分成12~24个slots。整个集群约34,916个slots,其中Map slots是19,643个,Reduce slots是15,273个

所有作业会进行分成多个Group,按照部门或小组划分,总共有38个Group。整个集群的资源也是按各个Group进行划分,定义每个Group的最大并发任务数,Map slots与Reduce slots的使用上限。每个作业只能使用自己组的slots资源。

时间: 2024-11-14 12:05:07

淘宝Hadoop集群机器硬件配置的相关文章

探秘淘宝Hadoop集群

当下中国超大规模的单Master节点Hadoop集群在哪里?在淘宝. 据悉,淘宝Hadoop集群拥有2860个节点,清一色基于英特尔处理器的x86服务器,其总存储容量50PB,实际使用容量超过40PB,日均作业数高达15万,为淘宝网的日常运营做出了关键支撑.对了,它还有一个很美丽的名字:"云梯". 近日,<网络世界>记者有幸采访到了阿里集团技术共享平台核心系统研发部海量数据技术专家罗李.作为淘宝"云梯"集群元老级创建者,以及目前的负责人,他详细讲解了Ha

一脸懵逼学习基于CentOs的Hadoop集群安装与配置(三台机器跑集群)

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构.  注意:HADOOP的核心组件有: 1)HDFS(分布式文件系统) 2)YARN(运算资源调度系统) 3)MAPREDUCE(分布式运算编程框架)       Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode

实战CentOS系统部署Hadoop集群服务

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序:HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文

《Hadoop集群与安全》一第1章 构建Hadoop集群

第1章 构建Hadoop集群 Hadoop是一款免费开源的分布式存储和计算平台.在构建该平台后,用户可以使用商用硬件中的集群来存储和处理大量数据.在过去的数年中,Hadoop已经成为大数据项目的事实标准.本章会讲述以下内容:选择Hadoop集群硬件.Hadoop发行版.为Hadoop集群选择操作系统.本章会讲解为Hadoop集群选择和配置硬件的概念,还会介绍不同的Hadoop发行版(其数量每年都在增加)以及它们之间的异同点.无论读者是Hadoop管理员还是架构师,构建集群的第一步是确定使用硬件的

window下myeclipse的插件连接linux的hadoop集群

问题描述 window下myeclipse的插件连接linux的hadoop集群 解决方案 MyEclipse 配置 Hadoop 插件hadoop-1.2.1 win7 myeclipse 插件编译windows/ Linux下 myeclipse和eclipse下安装配置hadoop插件 解决方案二: http://www.silverlightchina.net/html/windows8/study/2013/0203/21803.html

pig可以安装在hadoop集群外吗?

问题描述 大家好:我想知道pig可以安装在hadoop集群外远程访问集群吗?如果可以,yarn管理的hadoop集群该怎么配置pig的mapred.job.tracker=localhost:8021属性? 解决方案 解决方案二:把mapred.job.tracker=localhost:8021改为对应的MasterHostname解决方案三:但是如果是yarn管理的集群的话并没有tracker进程啊!

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也将学到Hadoop管理员应该考虑到各种

如何为Hadoop集群配置合适的硬件

Hadoop的概念随着大数据时代浪潮的到来,已经变得不那么陌生,在实际应用中,如何为Hadoop集群选择合适的硬件成为很多人开始使用Hadoop的一个关键问题. 在过去,大数据处理主要是采用标准化的刀片式服务器和存储区域网络(SAN)来满足网格和处理密集型工作负载.然而随着数据量和用户数的大幅增长,基础设施的需求已经发生变化,硬件厂商必须建立创新体系,来满足大数据对包括存储刀片,SAS(串行连接SCSI)开关,外部SATA阵列和更大容量的机架单元的需求.即寻求一种新的方法来存储和处理复杂的数据,

【Big Data】HADOOP集群的配置(一)

                       Hadoop集群的配置(一) 1.    实验准备 1.1    目的: 在虚拟机环境下,让同学们学会从零开始配置Hadoop-2.2集群,并尝试在真实环境下搭建集群. 1.2    主要内容: 物理机器总共4台,想配置基于物理机的Hadoop集群中包括4个节点: 1 个 Master, 3个 Salve ,节点之间局域网连接,可以相互 ping通.IP的分布如表1所示.             表1        4个节点的IP地址分配及角色 Ma