CIO部署Hadoop前需要考虑哪些因素

  当“大数据”成为人们话题时,Apache Hadoop经常是紧追其后。有一个很好的理由来说明这个问题:Hadoop有一个不惧导入不同数据结构的文件系统,还有一个大规模并行处理系统(MPP)来快速处理庞大数据集。况且,由于Hadoop建立在商用硬件和开源软件基础上,它兼具低廉和可扩展的优势。

  这些特点使得Hadoop架构成为很吸引CIO的一项技术,特别在他们面临着既要引进更多差异化、新型数据,又要控制成本的压力情况下更是如此。Forreste的企业架构师Brian Hopkins认为,仍用之前那种方式运营已经不能有效满足需求。

  他说:“本土企业级数据仓库的扩容费用高得吓人。大规模并行处理系统(MPP)数据仓库设备通过它的并行架构降低了数据仓库成本。但即便如此,该成本效益也还伴随着一个问题。那就是每TB数据的成本仍然相当高。”

  因此,尽管Hadoop的标价有诱惑力,但它并不是所有大数据问题的最优技术方案。该技术还相对较新、不够完善,这意味着它必然会伴随相应的症结和问题。那么,CIO要如何确定在何时部署Hadoop框架呢?下面是Ancestry.com公司用Hadoop来摆脱困境的三个场景,这给家谱网类站发出了明确启示,迎接Hadoop的时机到了。

  启示1:强化数据处理性能却不用支付“头等舱”费用的能力

  直到三年前,Ancestry.com仍在使用内建数据处理架构,但随着家谱记录、订阅人数和服务内容的增长,逐渐达到了数据架构的扩展极限。一直以来试图处理好4PB数据的Ancestry.com公司的IT部门,终于向Hadoop寻求帮助解决数据处理的问题。尽管如此,该公司的家谱网站仍继续在用SQL服务器型数据。许多数据先是进入Hadoop,然后再转移到数据仓库进行每日分析。

  Ancestry.com工程部高级副总裁Scott Sorensen说,“我们发现,对我们来讲最好的数据架构就是有一个贮存器,能够让我们把大量数据注入Hadoop,而在数据仓库只储存少量数据。”

  Hopkins把这称作“合理成本”性能,也就是,使数据仓库在利用率和成本上都得到更有效利用。许多企业在对他们的数据仓库性能进行评估时发现,很大一部分数据并未得到访问和分析——这一数据有时高达60%,Hopkins说。Gartner公司的最近一份调查报告显示,当分析技术和数字技术的地位越来越重要时,IT预算如果仍保持不变,其导致的低效会损害竞争优势。

  “企业采用了诸如Hadoop这样的方式把冷资料在昂贵数据仓库中所占用的空间腾出来。保留冷资料是出于储存和历史原因,提取冷资料则是用于分析和Hadoop中像Hive这样的功能,但好处是企业不用再支付高额费用了。”

  启示2:需要支撑新的收入项目、或者依赖于大数据的新产品或新服务

  今天,Ancestry.com公司正在着手进行一项新服务:常染色体DNA测试。订阅参与者将有机会通过遗传匹配发掘出潜在的家族扩展关系。尽管DNA测试不是该公司转向Hadoop技术的首要原因,这项服务的成功很大程度上依赖于它。

  Hopkins说,“发掘欲望”在具体的业务需求上——特别是在使用Hadoop之前根本不够用的需求——是另一个驱动企业转向这个开源框架的动力。

  “这些为了支撑新收入、产品创新或服务创新的全新应用案例,”Hopkins说,“在市场营销和客户智能领域,你会看到更多。”

  其中一个应用案例是被称为“720度客户视图”的数据获取,具体来说就是在单一的位置上集成了内部来自于呼叫中心和邮件的数据和外部来自于社交媒体的数据,用来提供更有意义的客户档案。

  不是每一个依赖数据的业务计划都会需要Hadoop。Jeff Kelly是Wikibon.org的首席研究人员和SiliconANGLED的特约编辑,他指出Hadoop的动人之处在于它能够存储和处理部同类型的大量数据。从外部引入诸如文字、图片、网络博客以及其他数据品种进入内部业务数据管理环境,这类需求提供了快捷的Hadoop部署的试金石。如果业务不必集成这些类型的数据,CIO大可不必打扰Hadoop。

  “如果你的数据大部分是结构化的并且来自于内部,那么真的没什么理由把这些数据放进Hadoop集群中,”Kelly说。“传统的技术已经处理的很好……没理由再去建另外一个你不需要的框架。”

  启示3:需要拓宽业务模式

  Ancestry.com进军常染色体DNA测试并不是简单的提供一项新的服务;这个家谱调研公司正在建设一个新的业务武器。

  Ancestry.com对于DNA序列的分析意味着它正步入生物信息学领域。该公司现在拥有生物信息专家一小组正在对学术界的算法进行调整和重新开发,以便处理Ancestry.com自己的项目规模。在这个新方向上的业务发力有可能把家谱调研推向另一个高度:连接起用户和他们可能从来没有想到能发现的远方的亲戚。

  “我们能够拿到DNA数据,但并不仅仅把它用于DNA匹配,”Ancestry的Sorensen说。“我们能够拿它和我们拥有的4千4百万(家族)树进行组合。当我们能够组合这两套数据时,那才是真正强大。”

  利用数据帮助企业发展并不一定意味着要应对一个全新的领域,就像Ancestry.com所做到的。通过一种对数据的全新应用,能够带来对业务一直从事的进行重新定义。这通常需要业务深入到更多数据,或者进行预测分析或是数据挖掘,部署Hadoop可以帮助到所有这些。

  Kelly同意这种看法。“如果你的企业正期望变得更加数据驱动化,但是因为你的基础架构不支持某一类你想做的分析,你就不能把数据整合起来,那么,这些迹象表明,这是时候开始寻找其他方式了,”他说,这类搜索很可能应该开始使用Hadoop。

时间: 2024-09-20 05:52:34

CIO部署Hadoop前需要考虑哪些因素的相关文章

部署Openstack前需要考虑的五大问题

OpenStack,模块化架构的一种开源云平台,已经在很多公司,包括Disney.Walmat和PayPal完成了部署.但是虽然Openstack云平台能够给用户更大的灵活性,并且降低锁定供应商的风险,但是它的实施可能会遇到很多问题. 在部署OpenStack之前,企业必须明确所需要的服务,避免安全威胁,解决集成问题.如下是一些常见的OpenStack问题,能够帮助企业在该领域起步. 如何为云选择合适的OpenStack服务? 决定哪种OpenStack服务能够满足你的云需求很困难,因为有大量的

买笔记本电脑需要考虑哪些因素?

  一:买笔记本电脑前需要考虑的几个问题 ①对笔记本的配置要求,也就是用途. 购买笔记本电脑主要是看用途,什么是最好的笔记本,适合自己实用的笔记本多个人而言才是最好的,所以购买笔记本电脑,你首先要清楚自己购买笔记本今后是用来做什么. ⒈如果只是普通的上网与办公,这个几几乎不用去考虑电脑配置问题,随便抱个笔记本电脑也能够满足普通上网与办公等需求. ⒉如果是影音娱乐则比较注重高清,视频解码等方面,那么目前比较新的二代SNB集成显卡平台是不错的选择. ⒊如果是用来专业绘图,那么重点是专业画图显卡,所以

部署Hadoop的公司要慎重考虑

近些年,Hadoop和"走向大数据分析引擎"一样,受到颇多赞誉.对很多人来说,Hadoop就意味着大数据技术.但其实开源的分布式处理框架未必能解决所有的大数据问题.这就要求想要部署Hadoop的公司慎重考虑--什么时候应用Hadoop,什么时候应用其他产品. 举例来讲,用Hadoop处理大规模无结构数据或半结构数据可以说绰绰有余.但它处理小数据集的速度却鲜为人知.而这一点就限制了Hadoop在Metamarkets集团的应用.Metamarkets集团位于旧金山,为在线广告提供实时市场

设计响应式网站:响应式网站建设需要考虑的因素

文章描述:响应式网页设计需要考虑的5大预算因素. 本文作者Brad Frost,纽约数字互动广告公司R/GA的移动web战略家和设计师.前端开发工程师.作者主要对响应式网站和单独的移动网站进行了简单的比较,并总结了建设响应式网站的一些预算考虑! 首先,我想以一个真实的事例开始今天的主题.曾经有一个网站项目,在建设初期并没有把移动设备考虑在内,但是在随后的设计过程中,大约有80%的客户会问这样一个疑问:网站在iPad上面的显示效果会是怎样?面对整个问题,整个开发团队开始慌了手脚,于是整个项目的时间

多语言版本网站需要考虑四大因素

在设计和开发一个多语言版本的网站前,需要考虑下列因素: 1- 应用字符集的选择 一个定位于不同语言国家的企业网站势必需要提供多种语言版本的产品和销售信息来满足其世界各地使用不同语言的客户和合作伙伴,其中包括法语.德语.意大利语.葡萄牙语.西班牙语.阿拉伯语等等.但有一个问题却极易被网站设计者们所忽略.这就是网站的字符集设置问题. 一般我们使用的是简体中文(GB2312)字符集,而对多语言网站来说,中文字符集却可能会使你辛辛苦苦的努力功亏一篑.原因很简单:就是这个毫不起眼的小小字符集在作怪. 计算

linux-在Linux部署hadoop,启动出错

问题描述 在Linux部署hadoop,启动出错 启动时整个输出很多信息,正常情况下,应该只有几行,启动了namenode.datanode等, 但是我在启动的时候却一直报'ssh: Could not resolve hostname ' 具体信息如下: [root@hbase ~]# start-dfs.sh with: ssh: Could not resolve hostname with: Temporary failure in name resolution it: ssh: Co

mapreduce-solaris部署hadoop集群跑wordcount报错

问题描述 solaris部署hadoop集群跑wordcount报错 solaris部署hadoop集群跑wordcount报错, 信息如下: [admin@4bf635fa-5f3e-4b47-b42d-7558a6f0bbff ~]$ hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output 15/08/20 00:48:09 WARN

部署Docker前必须问自己的四个问题

本文讲的是部署Docker前必须问自己的四个问题,[编者的话]Docker是当前技术领域最火热话题了,但是真正应用到生产环境并取得革命性成功的案例却并不多.很多人提起这个话题,往往认为Docker不够稳定,坑多,但在在实际的生产实践过程中,很多用户反馈Docker本身的稳定性不错,毕竟Docker依赖的容器技术在过去几年已经在大量的企业生产环境运行.但是也有相当多的企业在调研后放弃使用Docker,究竟是什么样的原因呢?对我们自己来说Docker到底适合我们的项目吗?且看Pusher的一位工程师

批量部署Hadoop集群环境(1)

批量部署Hadoop集群环境(1) 1. 项目简介: 前言:云火的一塌糊涂,加上自大二就跟随一位教授做大数据项目,所以很早就产生了兴趣,随着知识的积累,虚拟机已经不能满足了,这次在服务器上以生产环境来部署Hadoop.已经搭建完毕,分享出来供大家参考. 问题:看到Hadoop部署在一些资料上很是繁琐,一些简单的部署方法只是玩具,无法满足企业的部署条件,如果一台台服务器去部署,显然是不可行. 解决:在学习及其他资料后,准备以<Apache Hadoop Yarn: Moving Beyond Ma