Hadoop虽然强大 但并不是万能的

  随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大型">数据计算的框架,但Hadoop不是万能的。比如在下面这几种场景就不适合使用Hadoop:

  1、低延迟的数据访问

  Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办法代替的。但是如果你真的想要取代一个实时数据库,可以尝试一下HBase来实现数据库实时读写。

  2、结构化数据

  Hadoop不适用于结构化数据,却非常适用于半结构化和非结构化数据。Hadoop和RDBMS不同,一般采用分布式存储,因此在查询处理的时候将会面临延迟问题。

  3、数据量并不大的时候

  Hadoop一般适用于多大的数据量呢?答案是:TB 或者PB。当你的数据只有几十GB时,使用Hadoop是没有任何好处的。按照企业的需求有选择性的的使用Hadoop,不要盲目追随潮流。Hadoop很强大。但企业在使用Hadoop或者大数据之前,首先要明确自己的目标,再确定是否选对了工具。

  4、大量的小文件

  小文件指的是那些size比HDFS的block size(默认64M)小得多的文件。如果在HDFS中存储大量的小文件,每一个个文件对应一个block,那么就将要消耗namenode大量的内存来保存这些block的信息。如果小文件规模再大一些,那么将会超出现阶段计算机硬件所能满足的极限。

  5、太多的写入和文件更新

  HDFS是采用的一些多读方式。当有太多文件更新需求,Hadoop没有办法支持。

  6、MapReduce可能不是最好的选择

  MapReduce是一个简单的并行编程模型。是大数据并行计算的利器,但很多的计算任务、工作及算法从本质上来说就是不适合使用MapReduce框架的。

  如果你让数据共享在MapReduce,你可以这样做:

  迭代:运行多个 MapReduce jobs ,前一个 MapReduce 的输出结果,作为下一个 MapReduce 的输入。

  共享状态信息:但不要分享信息在内存中,由于每个MapReduce的工作是在单个JVM上运行。

时间: 2024-10-28 16:58:42

Hadoop虽然强大 但并不是万能的的相关文章

SAS:多年分析经验让Hadoop更加强大

云计算.移动化.社交网络.大数据被公认为四大趋势,大数据则以挖掘数据中所蕴含的价值被大量用户所关注,随着大数据生态圈的形成和稳步发展,Hadoop已经成为大数据重要的平台.近日,在2014 SAS中国区用户大会上,SAS公司高层表示SAS希望利用多年在数据分析方面的经验让Hadoop集群平台更加强大. Hadoop 2.0版本在去年推出之后,最重要的变化就是将被人所诟病的Mapreduce框架升级为Apache YARN框架,大大扩展了Hadoop中应用软件种类和应用程度.SAS公司作为商业分析

Spark:比Hadoop更强大的分布式数据计算项目

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目.它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法. Spark使用Scala开发,使

Hadoop专业解决方案-第12章 为Hadoop应用构建企业级的安全解决方案

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,春节期间,项目进度有所延迟,不过元宵节以后大家已经步入正轨, 目前第12章 为Hadoop应用构建企业级的安全解决方案已经翻译完成,在此对:译者:杨有鹏 不莱梅狗  78280847 表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,

Hadoop的关键:小处开始大数据之旅

作为大数据技术的典范,Hadoop一直为采用大数据的企业祝福并诅咒着.Hadoop功能强大,却非常复杂,这使得很多企业都宁愿等待更容易的东西问世,再推出大数据项目. 等待已经结束.Hadoop在稳步前进,来自诸如Hortonworks和Cloudera等厂商显着的 易用性增强,使得Hadoop的学习曲线已经减少了一半.企业正越来越多拥抱大数据和Hadoop,目的是从基本的ETL工作负载迁移到先进的数据分析. 但更多人不知道的是,企业使用Hadoop处理大数据的诀窍, 其实就是从小处着手. 采用H

采用Hadoop的关键 小处开始大数据之旅

作为大数据技术的典范,Hadoop一直为采用大数据的企业祝福并诅咒着.Hadoop功能强大,却非常复杂,这使得很多企业都宁愿等待更容易的东西问世,再推出大数据项目. 等待已经结束.Hadoop在稳步前进,来自诸如Hortonworks和Cloudera等厂商显着的 易用性增强,使得Hadoop的学习曲线已经减少了一半.企业正越来越多拥抱大数据和Hadoop,目的是从基本的ETL工作负载迁移到先进的数据分析. 但更多人不知道的是,企业使用Hadoop处理大数据的诀窍, 其实就是从小处着手. 小?这

数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径

让业务搭乘大数据技术确实是件非常有吸引力的事情,而Apache Hadoop让这个诱惑来的更加的猛烈.Hadoop是个大规模可扩展数据存储平台,构成了大多数大数据项目基础.Hadoop是强大的,然而却需要公司投入大量的学习精力及其它的资源. 如果得到正确的应用,Hadoop确实能从根本上提升你公司的业务,然而这条Hadoop的应用之路却充满了荆棘.另一个方面,许多企业(当然不是Google.Facebook或者Twitter)也没有做大数据分析所需要的巨型集群,他们纯粹是被"大数据"这

企业使用Hadoop处理大数据的诀窍

作为大数据技术的典范,Hadoop一直为采用大数据的企业祝福并诅咒着.Hadoop功能强大,却非常复杂,这使得很多企业都宁愿等待更容易的东西问世,再推出大数据项目. 等待已经结束.Hadoop在稳步前进,来自诸如Hortonworks和Cloudera等厂商显着的易用性增强,使得Hadoop的学习曲线已经减少了一半.企业正越来越多拥抱大数据和Hadoop,目的是从基本的ETL工作负载迁移到先进的数据分析. 但更多人不知道的是,企业使用Hadoop处理大数据的诀窍,其实就是从小处着手. 采用Had

Hadoop日渐成长引领开源云计算发展

最近各大巨头在云计算方面的投资都非常活跃,从云平台的管理.海量数据分析,到各种新兴的面向消费者的云平台和云服务,各个领域都呈现遍地开花的形式.而以Hadoop为代表的大规模数据处理(BigData Processing)技术的日趋成熟使得"业务为王"向"数据为王"转变.Hadoop社区的繁荣有目共睹.越来越多的国内外公司参与到Hadoop社区开发,或者直接将线上使用的软件开源. 当年与Google还是处在强烈竞争关系的Yahoo!于是招了Doug(Hadoop创始人

安卓10岁了:这些消失的经典App你还记得吗?

不知不觉,安卓系统已经迈入到第十个年头了.在很多老网友的印象中,iOS和安卓两大系统纵横移动市场,似乎也就是这几年的事,但仔细一查历史,2008年9月正式发布的安卓,已经是实打实十周岁的老系统了. 不知不觉安卓也是征战十年的老兵了 在这十年间,安卓系统不断进化,生态中涌现出了无数令人爱不释手的优秀App. 在安卓生态星火燎原的同时,也有为数不少的经典安卓App停止开发,永远停留在某个令人充满回忆的版本号中.这些已消失的经典安卓App,你还记得多少? 今天就一起来盘点一下那些已经停止更新.离我们远