Hadoop不是万能的 要明确场景扬长避短

  叶琪表示,Hadoop不是万能的,不能解决所有">的大数据需求,自身还有安全、实时性、SQL能力等诸多缺陷,一定明确需求和使用场景,用其长弃其短。在培训中他会分享Haodop系统的规划设计、建设、运维在电信行业的实施。

  -什么原因吸引你钻研Hadoop技术?

  在Hadoop的世界里能遇到各种系统最底层最复杂的技术问题,这是最吸引我长期钻研的最大动力。我的职业生涯经历过几个不同类型的产品,但大多属于Application层面的,完全不涉及OS、文件系统、内存管理、网络通信等核心技术,当我有一天有幸开始从事Hadoop这个产品并逐渐去研究它的内核代码时,我发现这里有所有我最感兴趣的话题,于是自己开始不可救药的爱上它了。

  -对于解决哪些问题Hadoop独具优势?

  Hadoop不是万能的,不能解决所有的大数据需求,自身也还有安全、实时性、SQL能力等诸多缺陷,所以一定明确需求和使用场景,用其长弃其短。

  在电信行业里,Hadoop最适合处理网络信令、上网话单、业务日志这三类数据,这三类数据的最大特点是量大(每天可以达到1T以上)、结构化(有明确的字段含义)、存储时间长(长达1年及以上),使用Hive+MapReduce、HBase等组件刚好能满足统计汇总、点查询等基础需求,能替代大部分IOE产品并与其互补,因此在这些场景下Hadoop独具优势。

  -目前企业应用Hadoop最大的困难是什么?

  我觉得最主要的还是SQL,传统企业应用都是SQL方式连接数据库,因此迁移到Hive QL和HBase之上会面临表结构变化和接口适配的问题,其次是人员技能问题,这些都是企业应用Hadoop的最大障碍。

  -根据您的了解,目前Hadoop发展的情况如何?

  Hadoop从互联网行业起步,已经获得了广泛的共识和巨大成功。这种成功已经成为示范效应而扩散到其他传统行业,当前正在剧变期的是电信行业,各类传统存储技术都面临升级到Hadoop的趋势;接下来是金融行业,现在的金融行业就像2年前的电信行业,处于萌芽期,一旦有了成功案例的“星星之火”,会马上掀起一股“燎原之势”。

  -请谈谈你在这次Hadoop培训上即将分享的话题。

  目前国内已经有很多不错的论坛和技术博客,对Hadoop的各方面内核技术有很多的分析;所以我不打算重复这些内容,而打算就Haodop系统的规划设计、建设、运维等方面分享下这几年我在电信行业的Hadoop实施心得。

  -哪些人群应该来参加本次培训?会对他们有哪些帮助?

  打算或即将在企业内实施Hadoop系统的IT部门主管、系统架构师是我本次培训课题的目标对象。这些人群对Hadoop有一些初步的认识,但没有能力自主规划建设一个生产级的Hadoop集群并将其运维好,也没有能力甄别应该选择哪个Hadoop发行版或哪些技术供应商来帮助他们建设好这个系统。

  原文链接:http://www.csdn.net/article/2014-05-05/2819608-Hive+MapReduce

时间: 2024-10-11 11:36:54

Hadoop不是万能的 要明确场景扬长避短的相关文章

Hadoop MapReduce两种常见的容错场景分析

本文将分析Hadoop MapReduce(包括MRv1和MRv2)的两种常见的容错场景,第一种是,作业的某个任务阻塞了,长时间占用资源不释放,如何处理?另外一种是,作 业的Map http://www.aliyun.com/zixun/aggregation/17034.html">Task全部运行完成后,在Reduce Task运行过程中,某个Map Task所在节点挂了,或者某个Map Task结果存放磁盘损坏了,该如何处理? 第一种场景:作业的某个任务阻塞了,长时间占用资源不释放,

Hadoop虽然强大 但并不是万能的

随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题.虽然Hadoop是一个伟大的分布式大型http://www.aliyun.com/zixun/aggregation/14206.html">数据计算的框架,但Hadoop不是万能的.比如在下面这几种场景就不适合使用Hadoop: 1.低延迟的数据访问 Hadoop并不适用于需要实时查询和低延迟的数据访问.数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办法代替的.但是如果你

总结10个Hadoop的应用场景

谁在用Hadoop?这是个问题.在大数据背景下,Apache Hadoop已经逐渐成为 一种标签性,业界对于这一开源分布式技术的了解也在不断加深.但谁才是 Hadoop的最大用户呢?首先想到的当然是它的"发源地",像Google这样的大型 互联网搜索引擎,以及Yahoo专门的广告分析系统.也许你会认为,Hadoop平台发 挥作用的领域是互联网行业,用来改善分析性能并提高扩展性.其实Hadoop的应 用场景远不止这一点,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的 作用. 美

10个Hadoop的应用场景

谁在用Hadoop这是个问题.在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深.但谁才是Hadoop的最大用户呢?首先想到的当然是它的"发源地",像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统.也许你会认为,Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性.其实Hadoop的应用场景远不止这一点,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的作用. 美国着名科技博客

大数据架构师:hadoop、Storm该选哪一个

首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;http://www.aliyun.com/zixun/aggregation/13431.html">Storm是内存级计算,数据直接通过网络导入内存.读写内存比读写磁盘速度快n个数量级.根据Harvard CS61课件,磁盘访问延迟约为内存访问延迟的75000倍.所以Storm更快. 注释: 1. 延时 , 指数据从产生到运算产生结果的时间,"快"应该主要指这个. 2. 吞吐, 指系统单

独家 | 一文读懂Hadoop(一):综述

随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识.2017年年初apache发行了Hadoop3.0,也意味着一直有一群人在对Hadoop不断的做优化,不仅如此,各个Hadoop的商业版本也有好多公司正在使用,这也印证了它的商业价值. 读者可以通过阅读"一文读懂Hadoop"系列文章,对Hadoop技术有个全面的了解,它涵盖了Hadoop官网的所有知识点,并且通俗易懂,英文不好的读者完全可以通过阅读此篇文

大数据与Hadoop:并不能简单划等号

当前,我国已经进入大数据时代,在这样的时代背景下,Hadoop的应用也逐渐深入,正在从互联网企业,逐渐拓展到电信,金融,政府,医疗这些传统行业.虽然目前Hadoop应用场景还是以日志存储.查询和非结构化数据处理为主,但是Hadoop技术的不断成熟以及生态系统相关产品的完善,包括Hadoop对SQL不断加强的支持,以及主流商业软件厂商对Hadoop支持的不断增强,会带动Hadoop 渗透到越来越多的应用场景中. 2013年是中国大数据的应用落地年,越来越多的行业用户开始重视并启动大数据相关的项目.

CIO部署Hadoop前需要考虑哪些因素

当"大数据"成为人们话题时,Apache Hadoop经常是紧追其后.有一个很好的理由来说明这个问题:Hadoop有一个不惧导入不同数据结构的文件系统,还有一个大规模并行处理系统(MPP)来快速处理庞大数据集.况且,由于Hadoop建立在商用硬件和开源软件基础上,它兼具低廉和可扩展的优势. 这些特点使得Hadoop架构成为很吸引CIO的一项技术,特别在他们面临着既要引进更多差异化.新型数据,又要控制成本的压力情况下更是如此.Forreste的企业架构师Brian Hopkins认为,仍

VMworld 2012:Hadoop离虚拟化还有多远?

VMware试图让Hadoop运行在虚拟环境中来应对大数据的挑战,但这不仅面临技术上的难题,来自竞争对手的狙击也不容忽视 [IT专家网 虚拟化频道]如果软件应用能够超越一切基础架构的差异性,企业IT将会少掉多少烦恼?本周举行的VMworld 2012大会上,VMWare重申了该公司的重大图谋:将所有物理资源虚拟化,实现全面池化以快速调配和部署,即软件定义型数据中心(SDDC).在应用层,这家虚拟化巨头正在努力将Hadoop搬进虚机之中,以应对"大数据". 大数据是时下业界热议的话题,走