Hadoop大潮正在逐渐席卷所有美国的垂直行业,包括金融、传媒、零售、能源、以及制药等。Hadoop在树立大数据概念的同时,还对海量数据进行实时分析,并从分析得出的数据发现趋势,以提高企业赢利的能力。
Apache Hadoop作为开源数据管理软件主要用来在分布式环境中的分析大量的结构化和非结构化数据。Hadoop已被用在包括Yahoo,Facebook,LinkedIn和eBay等众多流行的网站之中。
Facebook的工程师相信他们运行着最大的基于Hadoop的数据收集平台。但是数据分析平台自身也存在着不可回避的弱点,目前Facebook的工程师想出方法是只用单个服务器来协调所有工作。
Facebook的工程师Andrew Ryan在Hadoop Summit上对此问题表达了自己的看法。Facebook目前在全球最大的HDFS(Hadoop Distributed File System)上收集数据,总共超过100PB有价值的数据分布在不同数据中心的100个集群。
在当前大规模数据分析日益流行之际,Hadoop的单节点故障成为众矢之的。Hadoop部署会跨越数百甚至数千台服务器,负责整个调度工作的服务器节点被称为NameNode,NameNode位于HDFS主端,NameNode负责指导从端的DataNode执行底层的I/O任务。
NameNode跟踪文件如何被分割成文件块,而这些文件块又被哪些节点存储,以及分布式文件系统的整体运行状态是否正常。但如果单一节点停止运行将会导致数据节点无法通信,实际上这也将导致整个系统停止工作。
Facebook预计如果解决这一缺陷将会使数据仓库的停机时间减少一半。为了解决这一顽疾,Facebook的工程师研发出被称为Avatarnode的软件,当出现故障时可切换到备份的NameNode。经过设置之后每个数据节点定期发送更新到主节点和备份节点。
同时Facebook提供了开源Avatarnode,以提供Hadoop管理员在实际工作中获益。Facebook已在内部运行Avatarnode,这也极大改善了HDFS集群的可靠性。目前Facebook正在努力进一步改善Avatarnode以及与高可用框架的集成,将允许实现无人值守、自动化和安全故障转移等功能。
当然不止Facebook在试图解决Hadoop的缺陷,MapR和Cloudera的产品也具备备用相似的能力。
原文链接:PCWorld