淘宝Hadoop集群机器硬件配置

淘宝">Hadoop集群机器硬件配置

国内外使用Hadoop的公司比较多，全球最大的Hadoop集群在雅虎，有大约25000个节点，主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、腾讯、华为、中国移动等，其中淘宝的Hadoop集群属于较大的（如果不是最大）。

淘宝Hadoop集群现在超过1700个节点，服务于用于整个阿里巴巴集团各部门，数据来源于各部门产品的线上数据库（Oracle, MySQL）备份，系统日志以及爬虫数据，数量总量已经超过17个PB，每天净增长20T左右。每天在Hadoop集群运行的 MapReduce任务有超过4万（有时会超过6万），其中大部分任务是每天定期执行的统计任务，例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行，3-4个小时内全部完成。每天读数据在2PB左右，写数据在1PB左右。

this picture is from Taobao

Hadoop包括两类节点Master和Slave节点，

Master节点包括Jobtracker，Namenode, SecondName, Standby，

硬件配置：16CPU*4核，96G内存。

Slave节点主要是TaskTracker和DataNode，

硬件配置存在一定的差别：8CPU*4核-16CPU*4核，16G-24G内存

（注：通常是一个slave节点同时是TaskTracker和DataNode，目的是提高数据本地性data locality）。

每个slave节点会划分成12~24个slots。整个集群约34,916个slots，其中Map slots是19,643个，Reduce slots是15，273个

所有作业会进行分成多个Group，按照部门或小组划分，总共有38个Group。整个集群的资源也是按各个Group进行划分，定义每个Group的最大并发任务数，Map slots与Reduce slots的使用上限。每个作业只能使用自己组的slots资源。

时间： 2024-11-14 12:05:07

淘宝Hadoop集群机器硬件配置的相关文章

探秘淘宝Hadoop集群

当下中国超大规模的单Master节点Hadoop集群在哪里?在淘宝. 据悉,淘宝Hadoop集群拥有2860个节点,清一色基于英特尔处理器的x86服务器,其总存储容量50PB,实际使用容量超过40PB,日均作业数高达15万,为淘宝网的日常运营做出了关键支撑.对了,它还有一个很美丽的名字:"云梯". 近日,<网络世界>记者有幸采访到了阿里集团技术共享平台核心系统研发部海量数据技术专家罗李.作为淘宝"云梯"集群元老级创建者,以及目前的负责人,他详细讲解了Ha

一脸懵逼学习基于CentOs的Hadoop集群安装与配置（三台机器跑集群）

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构. 注意:HADOOP的核心组件有: 1)HDFS(分布式文件系统) 2)YARN(运算资源调度系统) 3)MAPREDUCE(分布式运算编程框架) Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode

实战CentOS系统部署Hadoop集群服务

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上:而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序:HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文

《Hadoop集群与安全》一第1章构建Hadoop集群

第1章构建Hadoop集群 Hadoop是一款免费开源的分布式存储和计算平台.在构建该平台后,用户可以使用商用硬件中的集群来存储和处理大量数据.在过去的数年中,Hadoop已经成为大数据项目的事实标准.本章会讲述以下内容:选择Hadoop集群硬件.Hadoop发行版.为Hadoop集群选择操作系统.本章会讲解为Hadoop集群选择和配置硬件的概念,还会介绍不同的Hadoop发行版(其数量每年都在增加)以及它们之间的异同点.无论读者是Hadoop管理员还是架构师,构建集群的第一步是确定使用硬件的

window下myeclipse的插件连接linux的hadoop集群

问题描述 window下myeclipse的插件连接linux的hadoop集群解决方案 MyEclipse 配置 Hadoop 插件hadoop-1.2.1 win7 myeclipse 插件编译windows/ Linux下 myeclipse和eclipse下安装配置hadoop插件解决方案二: http://www.silverlightchina.net/html/windows8/study/2013/0203/21803.html

pig可以安装在hadoop集群外吗？

问题描述大家好:我想知道pig可以安装在hadoop集群外远程访问集群吗?如果可以,yarn管理的hadoop集群该怎么配置pig的mapred.job.tracker=localhost:8021属性? 解决方案解决方案二:把mapred.job.tracker=localhost:8021改为对应的MasterHostname解决方案三:但是如果是yarn管理的集群的话并没有tracker进程啊!

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也将学到Hadoop管理员应该考虑到各种

如何为Hadoop集群配置合适的硬件

Hadoop的概念随着大数据时代浪潮的到来,已经变得不那么陌生,在实际应用中,如何为Hadoop集群选择合适的硬件成为很多人开始使用Hadoop的一个关键问题. 在过去,大数据处理主要是采用标准化的刀片式服务器和存储区域网络(SAN)来满足网格和处理密集型工作负载.然而随着数据量和用户数的大幅增长,基础设施的需求已经发生变化,硬件厂商必须建立创新体系,来满足大数据对包括存储刀片,SAS(串行连接SCSI)开关,外部SATA阵列和更大容量的机架单元的需求.即寻求一种新的方法来存储和处理复杂的数据,

【Big Data】HADOOP集群的配置（一）

Hadoop集群的配置(一) 1. 实验准备 1.1 目的: 在虚拟机环境下,让同学们学会从零开始配置Hadoop-2.2集群,并尝试在真实环境下搭建集群. 1.2 主要内容: 物理机器总共4台,想配置基于物理机的Hadoop集群中包括4个节点: 1 个 Master, 3个 Salve ,节点之间局域网连接,可以相互 ping通.IP的分布如表1所示. 表1 4个节点的IP地址分配及角色 Ma

猜你喜欢

如何写出高质量原创文章？

提到高质量文章,首先让人想到的是原创,这种原创是100%的原创,是凭着自己的经验一点一点积累起来的.其次则是文章的可读性,即使原创,如果没有可读性也不能称之为一篇高质量原创文章,顶多只是凑数字的烂 ...

分享医疗行业SEO的策略问题

随着互联网技术风靡全球,电子商务,各大医院,商店,影视等等开创网络营销平台.SEO的发展也成为引领时代潮流的职业.当今SEO门槛很低,搞SEO培训的人越来越多,做SEO的人越来越多,但是,真正做的好的 ...

浅析如何优化wordpress的页面加载速度

网站的加载速度可以在很多方面上影响到你的网站.一项研究表明,49%的用户可能会因为你的站点的加载速度过慢而放弃你的网站转向你的对手的网站.这意味着我们必须采取一下措施来提高加载速度,降低因为加载速度而 ...

也谈低级bug引来的悲伤：你能一眼看出下面的bug所在吗？

前段时间苹果公司报出了一个iOS 7.0.6的低级bug,该bug会引起中间人攻击,出现该bug的源码如下: static OSStatus SSLVerifySignedServerKeyExcha ...

微软下一代SQL Server的技术特性解析

上周,在微软召开的商务吹风会上,该公司对其下一款代号为"Katmai"的SQL Server数据平台进行了保守的揭秘. 会上,微软并非将"Katmai"和盘托出 ...

JBuilder 2005单元测试之创建测试用例

我们先为Subsection类创建测试用例. 1．在编辑器中打开Subsection.java文件,使其处理激活态. 2．File->New...->Test->在Test页的对象库 ...

高影响力的Web层群集, 第二部分: 用JavaSpaces构建

基于 PC 的商用服务器和网络连接硬件产品可以与开放源代码 Java 软件相结合,以实现对 Web 服务和应用程序部署的经济性扩展.在本高影响力的Web 层群集系列文章的第二篇中,Sing Li ...

金山毒霸工作组怎么设置？

金山毒霸工作组怎么设置? 1.右键单击"我的电脑",选择"属性". 金山毒霸 2.单击"计算机名",单击"更改". ...

拯救硬盘数据抢救经验谈

由于技术的成熟以及生产成本的下降,硬盘的价格和它的容量成反比的一路狂降,现在一般普通用户的硬盘动辄120G或 160G,一些喜欢下载东东的玩家更是用到了三四百个Gb的硬盘了.大容量以及高转速的硬盘给用 ...

如何让APP变快！

一.后台的执行核心思想:通过在状态栏运行加载的程序的同时,可以使用户可以做其他的事情举例说明: Instagram 当点击"赞"的按钮后,按钮的字样立马就变成了" ...

在Word2003文档窗口中改变显示比例

在Word2003文档窗口中查看Word文档时,用户可以按照某种比例放大或者缩小显示比例.放大显示比例时,用户可以看到比较清楚的Word文档内容,但是相对看到的内容会减少,这种显示通常用于修改细节 ...

spring mvc整合freemarker基于注解方式_实用技巧

基于网络改进为:最正常版本复制代码代码如下: <?xml version="1.0" encoding="UTF-8"?> <beans ...

安卓开发-关于百度地图的开发如何把其他人的地址标记在地图上

问题描述关于百度地图的开发如何把其他人的地址标记在地图上我想把做一种app两个使用者得到对方的地址信息标记在自己的地图上的基于百度地图想请教一下大神应该怎么做解决方案查一下百度的地图 ...

威客们去哪儿产业化威客模式V客网应运而生

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅威客,作为第一个由中国提出的互联网 ...

websearch-androidL Browser web search 搜索引擎如何修改

问题描述 androidL Browser web search 搜索引擎如何修改 androidL Browser web search 搜索引擎修改 : 1.设置搜索引擎为百度.2.打开一个网页, ...

性能调优攻略

关于性能优化这是一个比较大的话题,在<由12306.cn谈谈网站性能技术>中我从业务和设计上说过一些可用的技术以及那些技术的优缺点,今天,想从一些技术细节上谈谈性能优化,主要是一些代码级别 ...

sqlite jdbc-Java 如何连接带密码的 sqlite数据库

问题描述 Java 如何连接带密码的 sqlite数据库为了安全,需要把sqlite数据库设置连接密码,可是下载的JAVA JDBC库不支持,哪位大侠指点一下解决方案 getConnection( ...

影响网站排名优化心得分享

第一:网站空间的稳定性.网站服务器的稳定性,这个是影响蜘蛛访问网站和用户体验最主要也是最关键的因素之一,我每天都会定时定点的更新网站,如果因为服务器因素,导致蜘蛛在固定的时间段不能访问网站,隔三差五的 ...

云时代，阿里云带给你无限可能，助你腾飞！相信你也可以

本是一个什么都不懂的小白,通过百度,QQ聊天等不断摸索,自己申请了域名,主机,服务器,花不到100块自己搭建起了企业网站(ahytech.cn目前还在备案中),真的要给自己点个赞. 云时代,阿里云带给 ...

MapXtreme 2005 学习心得一些基础函数代码(四)

网上看到的基本上代码都大同小异,经过本人小小修改或未修改的代码如下: 一:先创建图层 1:创建图层函数代码:CreateLayer /// <summary> /// 创建临时图 ...

地震影响企业采购出口在日子公司或遭牵连

李隽专家认为,核污染或对相关企业股价产生新压力日本地震造成的影响牵动着各方的神经,而多家上市公司也陆续发布公告,向市场透露了地震对其经营业务的影响. 美达股份.长信科技.宇顺电子的采购业务受到了阻 ...

《编译与反编译技术实战》一第2章编译器实践概述

第2章编译器实践概述人与计算机之间的交流也是通过语言进行的,但人类能理解的语言与机器可以理解的语言是不同的,中间需要翻译,因此,相应的编译器诞生了.编译技术所讨论的问题就是如何把符合人类思维方式的 ...

Python算法实战系列：栈

栈(stack)又称之为堆栈是一个特殊的有序表,其插入和删除操作都在栈顶进行操作,并且按照先进后出,后进先出的规则进行运作. 如下图所示例如枪的弹匣,第一颗放进弹匣的子弹反而在发射出去的时候是最后一 ...

谁有《Programming C#中文版》急求！！！

问题描述如题,做好是<ProgrammingC#中文版(第四版)>其他版本也行!我要中文的英文看不懂!我的邮箱:jcoco@126.com 解决方案解决方案二:我有不过不是很清晰..发 ...

兄弟们，我快崩溃了

问题描述说一下我自己的情况,我现在就职于一个外包公司.工作两年了.一直做java开发.现在公司派我到客户那边去工作.工作的内容是:简单的粘贴复制.不需要写程序.做的是美工的活,甚至连美工的技术含量都 ...

九城朴舜优：中国网游不放投资海外的优秀团队进行合作

多玩游戏网10月23日消息(记者/于翔),在今日下午举行的网博会高峰论坛上,来自于第九城市的总裁朴舜优做了题为<中国网游行业应该学习外国什么>的主题演讲.在发言中他表示:"中国网 ...

雪压中国紧急行动抗天灾

山东告急,河北告急,山西告急,河南告急-- 一场历史罕见的大雪.暴雪连日来席卷我国北方数省区,一些地方交通瘫痪,城市供暖供电供气面临诸多难题,农业生产受损严重,群众的生产生活受到了巨大影响. 暴雪再次 ...

asp对于数据可操作

访问数据库 ActiveX Data Objects (ADO) 是一项容易使用并且可扩展的将数据库访问添加到 Web 页的技术.可以使用 ADO 去编写紧凑简明的脚本以便连接到 Open Datab ...

flash组件开发要点第1/2页_Flash教程

开发组件的目的就是为了封装可以重复使用的应用程序块,减少毫无意义的重复编码工作,提高开发效率. 最近在研究flash8的v2组件整理了一些制作组件的基础知识 1.必须清楚的一些类 Object类是基类 ...

如何让论坛推广给网站带来流量

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅对于论坛推广,我像这个对于每一个S ...

热搜

© 2024 iVAN | info#iamivan.net | 12 q. 0.027 s.