近日,由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开,今年已是第四届举办。包括百度、淘宝和中移动在内的诸多企业都展示了基于Hadoop的应用。在本次大会上淘宝数据平台及产品部基础研发组周敏介绍了淘宝对Hadoop的功能扩展和改造,分布式数据仓库的构思,并着重介绍了对Hive实践以及改造。以下是周敏在本次大会的ppt节选。
淘宝数据图
淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为:
1.总容量为9.3PB,利用率77.09%。
2.共有1100台机器。
3.Master:8CPU,48GB内存,SAS Raid。
4.Slave节点异构:
8CPU/8CPU(HT)
16G/24G内存
1T*12/2T*6/1T*6 SATA JBOD
12/20 slots
5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个
其中,从两方面介绍了Slave的规模:
1.Slave机器异构
6T机器磁盘利用率较高
Rebalance
单机速度控制:10M/s
每天9:00-23:30运行
2.Slave故障率
每周10-20次硬盘规章
每周1-2次主板或其他故障
12下一页
时间: 2024-10-24 08:45:58