Hadoop: Why Not Use RAID?

 一、针对hadoop集群的磁盘配置建议

    针对datanode,建议采用一组单独的磁盘,针对namenode节点,建议采用raid5或raid1来实现针对metadata的冗灾。

二、针对此问题讨论的资料

    针对此问题,两篇文章从不同角度论证为什么Hadoop更青睐JBOD而不是RAID-0。分别是:

  1. Steve Loughran所撰写的《Why not RAID-0? It’s about Time and Snowflakes》,
  2. 对Greg Bruno博士(工程副总裁及StackIQ联合创始人)的一个采访《Proper Care and Feeding of Drives in a Hadoop Cluster: A Conversation with StackIQ’s Dr. Bruno

    Raid0的资料:

    将多个磁盘合并成一个大的磁盘,不具有冗余,并行I/O,速度最快。RAID 0亦称为带区集。它是将多个磁盘并列起来,成为一个大磁盘。在存放数据时,其将数据按磁盘的个数来进行分段,然后同时将这些数据写进这些盘中,所以在所有的级别中,RAID 0的速度是最快的。但是RAID 0没有冗余功能,如果一个磁盘(物理)损坏,则所有的数据都会丢失,危险程度与JBOD相当。

理论上越多的磁盘性能就等于“单一磁盘性能”ד磁盘数”,但实际上受限于总线I/O瓶颈及其它因素的影响,详见:http://zh.wikipedia.org/wiki/RAID#RAID_0

    

    Steve Loughran认为,其并不适合Hadoop。
    与RAID-0阵列的同组管理相比,Hadoop更喜欢一组单独磁盘。在Hadoop集群中,读取速度是最能体现性能的重要指标。在Steve Loughran文章中,尤其强调了这一点,他还指出,由于驱动器速度显著不同,RAID-0读取速度往往取决于阵列中最慢的一块磁盘。很多时候,RAID-0配置读取速度甚至会比non-RAID更慢。更大的问题是可靠性。如果一组磁盘被配置为RAID-0阵列,一旦一个磁盘出现故障,将使得整组都宕机。如果所有磁盘都在一个节点中,那么势必会影响整个节点的数据都出现问题。所以,如果配置多个RAID-0阵列,那么单故障发生时,整体系统出问题的概率得到了无限放大

三、Hadoop:定义指导给出的建议

    在Hadoop集群中,有一个建议:在配置时,将每个磁盘都分开。有人形象地将之称为“JBOD(Just a Box of Disks)

    《Hadoop:The.Definitive.Guide》Chapter 9: Setting Up a Hadoop Cluster中,阐述了hadoop为什么不用raid, 及namenode,datanode应该使用的磁盘配置方式。原文如下:

时间: 2024-11-28 00:03:18

Hadoop: Why Not Use RAID?的相关文章

配置高可用的Hadoop平台

1.概述 在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用).这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下: 创建hadoop用户 安装JDK 配置hosts 安装SSH 关闭防火墙 修改时区 ZK(安装,启动,验证) HDFS+HA的结构图 角色分配 环境变量配置 核心文件配置 slave 启动命令(hdfs和yarn的相关命令) HA的切换 效果截图 下面我们给出下载包的链接地址: zookeeper下载地址 hadoop

RAID技术前景浅析

自从1988年伯克利大学发明RAID(磁盘阵列)技术以来,RAID一直是存储领域的核心,肩负着保护数据的重任.但是随着磁盘容量的不断增大,RAID技术遇到了前所未有的新问题.最大的问题在于在数据重构时间过长,延长了系统degraded时间,增加了多个磁盘故障的概率,降低了数据可靠性.并且在RAID数据重构过程中,RAID自身的Rebuild IO对应用IO造成了影响,直接导致应用IO的performance大为降低.更为严重的是,应用IO和Rebuild IO构成了互为影响的关系,大量的应用IO

Hadoop 2.0 NameNode HA和Federation实践

一.背景 天云趋势在2012年下半年开始为某大型国有银行的历史交易 数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服 务的可用性有着非常高的要求,而HDFS长久以来都被单点故障的问题所困扰,直 到Apache Hadoop在2012年5月发布了2.0的alpha版本,其中MRv2还很不成熟,可 HDFS的新功能已经基本可用,尤其是其中的的High Availability(以下简称HA) 和Federation.Cloudera也于7月制作了CDH4.0.1,包含了H

使用Linux和Hadoop进行分布式计算

Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入.它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发.2006 年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中. Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行

一步一步学习大数据:Hadoop生态系统与场景

Hadoop概要 到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议. 随着互联网以及物联网的蓬勃发展,我们进入了大数据时代.IDC预测,到2020年,全球会有44ZB的数据量.传统存储和技术架构无法满足需求.在2013年出版的<大数据时代>一书中,定义了大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracity(真实性). 当我们把时间往回看10年,来到了2003年,这一年Goo

基础 RAID 介绍

基础 RAID 介绍 简介 RAID是一个我们经常能见到的名词.但却因为很少能在实际环境中体验,所以很难对其原理 能有很清楚的认识和掌握.本文将对RAID技术进行介绍和总结,以期能尽量阐明其概念. RAID全称为独立磁盘冗余阵列(Rdeundant Array of Independent Disks),基本思想就是把 多个相对便宜的硬盘组合起来,成为一个硬盘阵列组,使性能达到甚至超过一个价格昂贵. 容量巨大的硬盘.RAID通常被用在服务器电脑上,使用完全相同的硬盘组成一个逻辑扇区, 因此操作系

【问答】大数据技术Hadoop面试题,看看你能答对多少?答案在后面

单项选择题 1. 下面哪个程序负责 HDFS 数据存储. a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a

Hadoop,有所为而有所不为

[51CTO专稿]使用大数据技术有着强烈的吸引力,而如今没有比Apache Hadoop更诱人的大数据技术了,这种可扩展的数据存储平台是许多大数据解决方案的核心. 但是尽管Hadoop颇具吸引力,想了解Hadoop能够为企业扮演什么角色.如何最有效地部署它,仍要面临一条很陡的学习曲线.换句话说,学起来很费劲. 只有明白了Hadoop的有所为而有所不为,你才能更清楚地了解如何才能最有效地把它部署到你自己的数据中心或云环境.然后,才可以为部署的Hadoop落实最佳实践. Hadoop的有所不为 我们

大讲台浅谈什么是Hadoop及如何学习Hadoop

首先hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序.HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据. Hadoop的框架最核心的设计就是:HDFS和MapRe