Hadoop真的适合你吗?

许多公司都在为管理海量数据不断努力。以前,他们都使用数据仓库平台,用这种传统架构在处理来自内部和外部数据源的数据时有很大困难,这些数据的结构和内容类型通常非常多样化,但Hadoop可以对此场景提供帮助。Hadoop是一款分布式处理架构,专门用来处理复杂的海量大数据,处理结构化、非结构化和半结构化数据混杂的场景。

Hadoop的部分优势在于,它有许多种开源组件和相关工具,可以完成数据捕获、处理、管理和分析工作。为了帮助用户利用好该框架,许多供应商提供了商业版Hadoop分布式产品,它们在Hadoop基础之上提供了性能和功能方面的扩展,并提供对该框架的维护和支持服务。

Hadoop分布式应用的案例场景

Hadoop运行在商用服务器集群环境中,这种环境通常用来支持数据分析而不是联机事务处理应用。有几种更加通用的分析应用案例可以很好地展示Hadoop分布式数据处理和并行计算模型:

业务智能应用要从事务处理系统和组织资产系统中捕获流式数据,监视性能水平,应用预测分析做预备维护或者处理变更。

Web分析本来是为了帮助公司理解站点访问者的在线活动情况,通过检查Web服务器日志来检测系统性能问题,发掘营销信息。

安全和风险管理,例如:运行分析模型把事务数据与欺诈活动模式知识库做比较,利用持续网络安全分析识别新出现的可疑行为。

营销优化,包括利用大量网络点击和在线销售数据,再结合客户档案信息设计形成推荐引擎提供实时产品捆绑销售建议。

物联网应用,例如从制造业设备、管道和所谓智能建筑安置的传感器终端获取数据做分析,这些传感器会持续生成并广播关于状态和性能的信息。

语义分析和品牌保护,可能需要捕获流式社交媒体数据并分析文本,识别出有意见的客户提出的问题并快速解决。

大数据收集、处理和整合场景,例如捕获卫星图像和地理空间数据。

数据暂存,Hadoop用于做第一手数据的存储,然后才会做整合、清洗和转换为更加结构化的格式,未来加载到数据仓库或分析数据库用于分析。

Hadoop分布式应用的实现方式

支持以上这些应用场景的应用都可以基于Hadoop构建,可以使用一些典型的实现方法。说明如下:

数据湖。因为Hadoop提供了线性扩展能力,集群架构中很容易加入新数据节点做处理和存储,因此它提供了非常自然的平台用于捕获和管理原始数据文件。基于这一特性,许多用户把Hadoop系统用作捕获所有数据的平台,创造了数据湖的概念。

增强的数据仓库平台。Hadoop分布式存储还可以用于扩展数据,供数据仓库环境访问用于分析。最频繁使用的“热数据”存储在数据仓库中,而不太频繁的“冷数据”可以提交到更高延时的存储,例如Hadoop分布式文件系统。这种方法依赖于数据仓库与Hadoop集成的紧耦合。

大规模批量计算引擎。如果配置了数据和计算节点,Hadoop就变成了大规模并行处理平台,可以用于批量处理应用做数据操作和分析。数据标准化就是很好的例子,可以对数据集应用转换任务为分析做准备。算法驱动的分析应用(例如数据挖掘、机器学习、模式分析和预测模型)都可以用到Hadoop的批处理能力,因为他们都需要针对海量分布式数据文件并行处理,并叠加并行处理结果后提供最终结果集。

事件流分析处理引擎。Hadoop环境还可以配置为实时或准实时处理收到的数据流。例如,客户感受分析应用可以把多个通讯代理并行运行于Hadoop集群上,每个代理都有一套处理规则。

选择Hadoop的优势:它真的适合你吗?

Hadoop是低成本高性能的计算框架,可以处理各种IT和业务场景中组织对扩展处理能力或者扩展数据管理能力的需求。下面总结一下应用需求的特点以及建议选择的基于Hadoop分布式应用的数据管理平台。

获取和处理大数据规范集、大规模非结构化数据和流式数据。例如,捕获包含数十亿在线事件信息的Web服务器日志;跨不同数据集索引亿级文档;从众多渠道持续拉取数据流(诸如:社交媒体渠道、证券市场数据、新闻发布源和专家团队发布的内容等渠道)。

排除性能障碍的需求。在传统数据仓库系统中,通常会有节流阀控制对数据的访问、延时、可用性或者贷款限制来保障应用性能,这与需要处理的数据量有关。

针对性能的线性可扩展性。随着数据量的增长和用户数增加,环境性能可以随着计算能力和存储资源线性扩展是非常关键的能力,尤其是在应用程序适合并行计算的场景下更是如此。

结构化数据和非结构化数据的混合场景。应用程序需要使用不同数据源的数据,包括结构化、非结构化和半结构化的数据。例如:文本数据或者服务器日志数据。

IT成本有效性。不需要花费购买高端服务器或者专门的硬件设备,系统架构师相信使用正常配置就可以达到可接受的性能。

Hadoop应用到企业中

尽管把Hadoop平台整合到企业应用中是完全可行的,但使用Hadoop获益仍然要考虑权衡。因为许多组织已经在传统数据仓库平台上做了巨大投资,因此引入更新的技术可能会遇到一些阻力。在引入Hadoop分布式产品供应商之前,需要先解决潜在的障碍,评估集群规模和配置需求。

例如,要判断Hadoop集群如何与组织的数据仓库和分析策略融合,判断是否可以增强现有数据仓库功能甚至替换它。另外,要判断整合和交互方面需要处理的问题,审查配置可替代物,包括是否可以更有利于实施内部Hadoop生态系统,或者基于云或者托管环境。此外,要确保你已经聘用了具备相应技能的员工或者对现有职员进行再培训。Hadoop应用开发与传统数据库开发差异是很大的。

本文转自d1net(转载)

时间: 2024-10-15 18:15:37

Hadoop真的适合你吗?的相关文章

MVC真的适合PHP么?

近来设计模式风行,MVC随处可见,PHP领域也不例外,很多论坛都开始讨论在PHP中使用MVC.然而,M.V.C在PHP中到底该如何实现?MVC真的适合PHP么?这里Easy给出一些自己的思考. MVC的原型 MVC本来是存在于Desktop程序中的,M是指数据模型,V是指用户界面,C则是控制器.使用MVC的目的是将M和V的实现代码分离,从而使同一个程序可以使用不同的表现形式.比如一批统计数据你可以分别用柱状图.饼图来表示.C存在的目的则是确保M和V的同步,一旦M改变,V应该同步更新. JAVA中

Hadoop不适合处理实时数据的原因剖析

1.概述 Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理.这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息.为了解决这个问题,就得借助Twitter推出得Storm.Storm不处理静态数据,但它处理预计会连续的流数据.考虑到Twitter用户每天生成1.4亿条推文,那么就很容易看到此技术的巨大用途. 但Storm不只是一个传统的大数据分析系统:它是复杂事件处理(CEP)系统的一个示例.CEP系统通常分类为计算

数据库真的适合容器化吗,也许不是

本文讲的是数据库真的适合容器化吗,也许不是[编者的话]本文主要评估了数据库容器化的可行性和必要性并最终提出了建议和解决方案. 容器概念(特别是Docker)非常火热.但是,在把数据库包装到一个全新的容器之前,有一些事情需要先在脑海里过一下. 本文评估了Docker和其他容器解决方案在数据库环境下的可行性. 几周前,我写了一篇相对概括的关于容器的文章.它介绍了你什么时候该考虑使用Docker.rkt.LXC等容器技术.方便的话不妨先浏览一下.这是一个很好的方式,在迁移到新技术架构前先了解一些需要考

口碑营销是个伪命题?是否真的适合互联网?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 作为最为奢侈的营销方式,口碑营销是否真的适合互联网? 当我们听到一位上学青年月入几十万,或者几个人组成的电商小团队就能完成年入百万业绩的时候,对互联网创业都抱着那么大那么大的憧憬与幻想,但是当你仔细打探.深究其里的是,你得到的信息是月入几十万的行当是他运营了一家小说站,年入百万是因为这团队玩竞价.做非法产品,你的互联网创业梦终于摇摇欲

慎重!物联网时代情趣用品真的适合联网么?

安全研究人员发现,黑客可以轻易入侵一款配备有摄像头的物联网振动棒,甚至能在用户不知情的情况下实时播放视频流.是否所有设备都有必要联网?这个问题值得反思. 物联网让大量设备彻底改变世界的运作方式,其有可取之处.然而,"智能"振动棒未必是必需之存在. 安全公司Pen Test Partners的研究人员指出,售价近250美元Svakom(司沃康)Siime Eye能轻易被黑客入侵.这款设备本身已经带有视频流功能,网络连接一旦不安全,那这个功能就只会是累赘,甚至是麻烦. 如果有人在设备Wi-

图片真的适合做疾病诊断吗?

摘要: 为什么突然想到这个话题?移动互联网给远程医疗带来了更为快速的方便的问诊模式,不论是文字.图片和视频,都扩大了诊疗素材并挣脱了原有空间距离的束缚. 比较典型的例子是最 为什么突然想到这个话题?移动互联网给远程医疗带来了更为快速的方便的问诊模式,不论是文字.图片和视频,都扩大了诊疗素材并挣脱了原有空间距离的束缚. 比较典型的例子是最早以皮肤病切入的紫色医疗,以及走入家庭中的,以电视或者其他显示屏为基础的诊断方法. 这也让不少人提出疑问,面对不同的拍摄环境,或者对于那些对医疗知识本不了解的病人

BAT的真的适合创业团队吗?

平时在公司扮演一个逗比得角色和亲爱的们友好相处的我根本不愿意去思考这么深入的课题.本来在上一家公司就涉及的太深,心爱的一条小产品线被咔掉后心疼不已.只想深入研究技术不问世事了.怎奈何突然有一天说要招一个项目管理职位的人进来,专门做的事情就是更新和管理项目进度.我当时十分疑惑后,就开始了找个思考的历程. 大公司病? "难道不是产品经理需要管理这个事儿吗"?小创业公司里,不是产品经理需要把从老板.市场和运营的人的一堆破事儿都收集整理了,然后去其糟粕.留其精华,转化为需求文档和原型交给开发,

现在真的适合购买iPhone 6吗?

腾讯科技 孙实 9月21日报道 本周五,苹果在全球多个国家和地区开售iPhone 6和iPhone 6 http://www.aliyun.com/zixun/aggregation/19564.html">Plus.但作为苹果最重要的市场之一,中国大陆却不在首发范围之内,这让许多大陆果粉为之叹息. 与此同时,正是由于无法在大陆地区率先购买到iPhone 6/Plus,直接导致黄牛抬高了这两款手机市场的价格.北京中关村.深圳华强北,都将iPhone 6.iPhone 6 Plus的价格抬到

Hadoop不适合哪些场景 哪些场景适合?

Hadoop设计的目的主要包括下面几个方面,也就是所谓的适用场景: 1:超大文件 可以是几百M,几百T这个级别的文件. 2:流式数据访问 Hadoop适用于一次写入,多次读取的场景,也就是数据复制进去之后,长时间在这些数据上进行分析. 3:商业硬件 也就是说大街上到处都能买到的那种硬件,这样的硬件故障率较高,所以要有很好的容错机制. 接下来说说不适用的场景: 1: 低延迟数据访问 Hadoop设计的目的是大吞吐量,所以并没有针对低延迟数据访问做一些优化,如果要求低延迟, 可以看看Hbase. 2