淘宝分布式数据处理实践

近日,由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开,今年已是第四届举办。包括百度、淘宝和中移动在内的诸多企业都展示了基于Hadoop的应用。在本次大会上淘宝数据平台及产品部基础研发组周敏介绍了淘宝对Hadoop的功能扩展和改造,分布式数据仓库的构思,并着重介绍了对Hive实践以及改造。以下是周敏在本次大会的ppt节选。

淘宝数据图

淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为:

1.总容量为9.3PB,利用率77.09%。

2.共有1100台机器。

3.Master:8CPU,48GB内存,SAS Raid。

4.Slave节点异构:

8CPU/8CPU(HT)

16G/24G内存

1T*12/2T*6/1T*6 SATA JBOD

12/20 slots

5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个

其中,从两方面介绍了Slave的规模:

1.Slave机器异构

6T机器磁盘利用率较高

Rebalance

单机速度控制:10M/s

每天9:00-23:30运行

2.Slave故障率

每周10-20次硬盘规章

每周1-2次主板或其他故障

12下一页

时间: 2024-08-02 07:18:01

淘宝分布式数据处理实践的相关文章

明星讲师心石闪耀ArchSummit大会 | 手机淘宝构架演化实践

该文章来自阿里巴巴技术协会(ATA)精选集  2014年12月19日~20日,ArchSummit北京2014大会上"移动互联网,随时随地"专题火爆非凡.阿里无线事业部技术负责人庄卓然(花名南天)任移动专题出品人.   阿里无线事业部的高级专家李敏(花名心石,微博:@allblue_华丽地低调 )分享了<手机淘宝架构演化实践>,演讲深受好评,荣获明星讲师.     手淘技术研发团队派出的交流学习小分队也在ArchSummit大会现场和行业里的工程师们愉快的交流学习和玩耍 .

阿里巴巴宁朗:淘宝数据可视化实践

文章讲的是阿里巴巴宁朗:淘宝数据可视化实践,2014年4月10-12日,第五届中国数据库技术大会在北京五洲皇冠国际酒店隆重举行.本届大会的主题为"大数据技术探索与价值发现",参会规模达到1,800人.大会邀请近百位顶级技术专家和行业领袖分享数据库与大数据技术的最新动态,及其在行业领域里的应用部署和管理经验. 自2010年以来,国内领先的IT专业网站IT168联合旗下ITPUB.ChinaUnix两大技术社区,已经成功举办了四届中国数据库技术大会,每届大会与会规模超过千人,是目前国内最受

淘宝分布式框架fourinone

淘宝分布式框架fourinone 彭渊 •分布式幵行计算•分布式协调•分布式缓存•消息队列•FTTP分布式文件操作•分布式作业调度平台•应用场景:上亿数据排序 淘宝分布式框架fourinone

淘宝分布式配置管理服务Diamond

在一个分布式环境中,同类型的服务往往会部署很多实例.这些实例使用了一些配置,为了更好地维护这些配置就产生了配置管理服务.通过这个服务可以轻松地管理这些应用服务的配置问题.应用场景可概括为: zookeeper的一种应用就是分布式配置管理(基于ZooKeeper的配置信息存储方案的设计与实现).百度也有类似的实现:disconf. Diamond则是淘宝开源的一种分布式配置管理服务的实现.Diamond本质上是一个Java写的Web应用,其对外提供接口都是基于HTTP协议的,在阅读代码时可以从实现

复杂表单应用解耦 淘宝机票订单实践

中介交易 SEO诊断 淘宝客 云主机 技术大厅 背景 在web应用中,复杂表单这类web应用富交互元素多,业务逻辑复杂,犬牙交错,且需求变化频繁.及容易成为晦涩和幽暗之地,也经常是各种代码坏味道的来源.针对这种典型的复杂应用,本文以淘宝机票订单为例提出一种架构模式梳理和消化表单带来的复杂性. 模块和组件划分 解决复杂表单的的第一步,划分模块. 概念上,为了复用和解耦方便,应将模块按照功能的内聚程度进行划分.强相关,频繁沟通和交互的功能应该归为一个模块.模块间尽量不存在依赖关系.也就是常说的"高内

阿里-淘宝用的什么框架啊?

问题描述 淘宝用的什么框架啊? 前端好像用的是h5+aplus不知道这个aplus.js是干嘛用的 还有后台用的是什么技术呢?顺便再问一下cdn是什么 解决方案 回答你下cdn是什么吧. 全称是Content Delivery Network,即内容分发网络. 其实就是把网站中的静态资源,分布在全国或者全球的各个cdn节点上. 这样用户进行网站访问的时候,这部分资源则会从最近的cdn节点上获得,而不用直接访问到网站本身,达到降低网站的访问压力. 解决方案二: http://blog.csdn.n

实战新浪微博推广淘宝客 如何提高转化率

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 淘宝客能赚钱,但是越来越难做.很多长尾关键词已经被无数个淘宝客单品网站占据,通过网站推广淘宝客越来越困难.依托人气平台推广淘宝客是一个不错的出路.很淘宝客通过百度知道.问问.人人网等收入过万.更有甚者,通过QQ空间平台推广月入20万.微博又是一个最新高人气的平台,数据经常被刷新.很多人正在通过微博推广淘宝客默默赚钱,至于赚钱数额无法估量.应该

大淘宝为C2C平台、B2C网店系统商提供机遇

当年的小淘宝如今正在变的越来越大,"大淘宝"战略让淘宝越来越向B2C+聚拢:淘宝商城.电器商城.与湖南卫视合作.与联想移动合作.与ShopEx和万网合作-- 大淘宝战略的实践,让马云心目中的电子商务生态圈日益型构,在市场份额上,淘宝已经占到了国内B2C+C2C市场的80%市场份额. 2010年,是国内B2C企业集体觉醒和发力的一年,也是传统大品牌厂商纷纷触网,开始尝试B2C运营的一年. 随着众多传统大品牌企业纷纷入驻淘宝商城,而那些长期在淘宝上生存成长的草根网商群体则日益遭遇和感受到传

从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)

 文章转载自: http://blog.csdn.net/v_july_v/article/details/670407 从hadoop框架与MapReduce模式中谈海量数据处理 前言     几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理.     由此,最近凡是空闲时