为何HDFS是大数据分析的软肋

分布式文件系统是大型分析非常重要的一环。即使你是在使用Spark,你仍然需要将大量的数据快速的存入内存,所以文件系统一定要可以是高速率的。但是,HDFS并不像它标榜的那样好,它是大数据分析的薄弱环节。

什么是分布式文件系统?普通的文件系统是基于块来存储文件的。查找文件时,要去磁盘中匹配每一个块。一般是有文件分配表或多种FAT的。但是,分布式文件系统的物理存储资源是不一定直接连接在本地节点上的,而是通过计算机网络与节点相连。另外,像RAID或SAN系统,块是会复制的,因此,网络节点丢失并不会造成数据丢失。

HDFS存在的缺陷

HDFS中的文件分配表的核心是NameNode。客户端主要通过NameNode执行数据操作,DataNode会与其他DataNode进行通信并复制数据块以实现冗余,这样单一的DataNode损坏不会导致集群的数据丢失。但是NameNode一旦发生故障,后果会非常严重。虽然NameNode可以故障转移,但是需要花费大量的时间。这也意味着序列中会有更多的等待时间。HDFS的垃圾回收,尤其是Java垃圾回收是需要占用大量的内存,一般是本机有效内存的10倍。

因为HDFS的设计更多的是建立在响应"一次写入、多次读写"任务的基础上。在多数情况下,分析任务都会涉及数据集中的大部分数据,也就是说,对HDFS来说,请求读取整个数据集要比读取一条记录更加高效。所以HDFS在语言选择方面更偏向于基础语言,而不是高级语言。

传统的操作可以用更短的时间来开发部署,维护成本更低、安全性更好。业内有这样一种说法,大多数操作系统支持C语言、汇编和Java的原因是,文件系统处于一个较低的水平。

HDFS的工具和其他文件系统的工具相较是有差距的。比起你曾经处理的任何文件系统或分布式存储HDFS周围的工具是一种较差。基于Java的文件系统只能搭上IT人员最喜爱的POSIX工具的末班车。你尝试过NFS挂载HDFS吗?其它的HDFS工具的安装也是非常复杂的。相反的,如果你使用REST bridge Tool和客户端命令行就会非常容易。

HDFS支持原生代码扩展,提高了运行效率。另外,社区也为NameNode的发展做出了很多贡献。如果你想要打造一个高端的系统,那么必须打破监测和诊断工具中的NameNode瓶颈。总之,在操作系统上使用基于C或C ++的较为成熟的分布式文件系统往往是一个更好的选择。

Spark和云计算需求的变化

早期的Hadoop企业部署基本上是在本地完成的,随着Spark和云部署的崛起,使用Amazon S3作为数据源的情况渐渐多了起来。

Hadoop供应商都期望能够出现更为统一的Hadoop平台,期望HDFS能够与安全组件集成。Spark本身就因文件系统的多样性而存在很多矛盾,所以,想要和文件系统紧密集成几乎是不可能的。

MAPR FS文件系统渐渐引起了企业的兴趣。MAPR FS没有NameNode,而是采用了更标准和熟悉的集群方案方案。 MAPR的分区设计也很好的避免了瓶颈。

除了上述的分布式文件系统,还有很多的分布式文件系统可以供选择,例如Ceph、Gluster。Gluster是一种更为标准的分布式文件系统,擅长I/O操作。目前,大多数人选择使用Spark来存储文件是因为他们对于Spark更加熟悉,而并非是因为它性能好、速度快。

大型HDFS安装的迁移是不可能一蹴而就的,但是随着时间的迁移,未来我们在Spark和云项目中会越来越少的看到HDFS。也许,HDFS会脱离YARN,单独成为Hadoop的一部分。

本文作者:佚名

来源:51CTO

时间: 2024-07-30 20:45:54

为何HDFS是大数据分析的软肋的相关文章

四核手机普及遭遇技术壁垒:耗电和成本成软肋

随着市场的快速发展,智能手机也似乎迎来了崭新的时代.在日前举行的世界通信展上,多家手机公司推出了采用四核处理器的智能手机.不过,专家指出,过高的成本以及耗电量大等因素势必会制约四核手机的普及速度. 功耗大或成软肋 智能手机虽然大热,但备受诟病的地方仍然很多,尤其是功耗高.续航时间短的问题,都是影响其进一步普及的拦路虎.多年来,电池技术一直难有突破,尚未见到能够顺利实现民用的长时续航技术.改善续航能力的惟一办法就是使用更厚的大号电池,但这会影响手机外型的美观,而消费者的审美标准与时俱进,这种产品很

大数据时代中国制造业的三个软肋

伴随着中国制造业在全球制造业中扮演的角色越来越重要,如何保持中国制造业的可持续发展,如何在全球范围内进行合理的资源配置和使用,如何进行设计.采购.制造.销售以及提供服务,从而实现利润的最大化?寻找适合企业自身发展的全球化战略和运营模式已经成为一个紧迫的议题. 记者获悉,在10月17日举办的以"中国智造业未来"为主题的第二届全球运营高峰论坛上,主办方特邀请来自企业和学术界人士,就智能化物流.大数据时代制造业的机遇与挑战.企业运营战略的升级.供应链中的服务创新等方面展开讨论与交流. 中国制

17年四度谋划无果佛慈制药现两大上市软肋

3月5日,证监会发审委举行了2010年第36次会议,兰州佛慈制药股份有限公司(以下简称佛慈制药)上会.这已是佛慈制药在近17年里第4次试图敲响资本市场的大门.但这一次,大门依旧被无情地掩上. <每日经济新闻>记者试图挖掘佛慈制药4度失意IPO背后的经历,并厘清公司在主业和关联交易上的两大上市软肋. 市场竞争激烈产品优势难显 在兰州当地,佛慈制药让人颇为引以为傲.作为佛慈制药的第一大股东,兰州佛慈制药厂(以下简称制药厂)曾有着辉煌的过去,时至今日仍是西北地区唯一一家中药行业国家二级企业,也是中药

《R与Hadoop大数据分析实战》一1.6 HDFS和MapReduce架构

1.6 HDFS和MapReduce架构 由于HDFS和MapReduce是Hadoop框架的两个主要特征,我们将专注于它们.先从HDFS开始. 1.6.1 HDFS架构 HDFS是主从架构.主HDFS命名为名称节点(NameNode),而从HDFS命名为数据节点(DataNode).名称节点是一个管理文件系统命名空间和调整客户端文件访问(开启.关闭.重命名及其他操作)的服务器.它将输入数据分块并且公布存储在各个数据节点上的数据.数据节点是一个从装置,它存储分区数据集的副本并且收到请求时提供数据

可穿戴设备数据共享是软肋

随着可穿戴设备逐步在科技产业升温,可穿戴外设正成为当下创业的热点方向.腾讯科技对话栏目Connector特邀戈壁资本合伙人蒋涛.美国MisfitCEO Sonny Vu,针对可穿戴设备产品.设计与制造.创业过程的挑战等话题,进行深入对话. 以下是对话摘要: 1.在硬件制造的过程中,材料是最大挑战 Misfit在生产制造环节没有遇到大的问题,因为在设计阶段就考虑到了生产的问题.Shine我们第一个全金属的设备,没有用塑料,但如果用金属材料就很有挑战性.主要是金属外壳不容易处理. 2.数据共享,是可

商务智能的“软肋”?

上周一,老板要去华盛顿向联邦政府卫生部推广我们的http://www.aliyun.com/zixun/aggregation/7840.html">商务智能软件.走之前,向我征求对他演讲稿的意见.我的意见之一,是建议突出商务智能对决策的支持作用.没想到,老板摇摇头,笑着说:"联邦政府的官员对"决策支持系统"这种提法其实很不"感冒",他们认为,即使商务智能软件能提供很好的数据分析和展示,决策的制定,最终还是个"政治过程"

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产.有人称为金矿.甚至社会财富.而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.Gartne认为"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据并不在"大",而在于"有用".价值含量.挖掘成本比数量更为重要.对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键.大数据

用户体验与产品设计:知乎到底想干什么?还有哪些软肋?

文章描述:知乎到底想干什么?还有哪些软肋? 引言:写这篇文章的初衷是为了让自己"读懂"知乎.知乎是一个颇有吸引力的产品,甚至一度转移了我对微博的兴趣,由此我更想搞清楚知乎背后的逻辑是什么,它是如何运作的.当然谈知乎很可能就是在谈Quora,可惜我还没用过Quora所以没有发言权,所以只能就知乎作一番分析.   一论:知乎是一种混合网络,由个人结点和知识结点两种结点构成 这种网络结构的成因是由于一个大胆而有趣的设定:用户既可以follow"人",也可以follow&q

小米手机深陷“返修门” 售后成软肋

日前,小米公司正式发布了售价仅为1499元的小米手机青春版,选择在毕业季的前夕发售这款大打"青春牌"的手机,的确很受学生欢迎.但与此同时,有关小米手机的负面消息被频频曝出:发货慢.频死机.售后客服电话难以接通.维修费天价等问题也引发用户的声讨.小米手机一时深陷"返修门". 用户扬言"砸手机" 近日,有上海用户反映小米手机频繁出现自动重启问题,因为不堪忍受扬言要"砸手机"维权.微博账号电器仔007微博发布广东某门店针对小米手机返