DIY Hadoop大数据环境的5大陷阱

文章讲的是DIY Hadoop大数据环境的5大陷阱,虽然Hadoop可以运行在廉价的商品计算机硬件,且用户很容易添加节点,但是它有一些细节是很昂贵的,尤其是你在生产环境中运行Hadoop。

  甲骨文公司大数据产品经理Jean-Pierre Dijck称:“IT部门认为‘我已经有服务器,我还可以买到便宜的服务器,我也有人员,所以我们不用花多少钱就可以构建自己的Hadoop集群’,这当然是一件好事,但是IT部门在部署时会发现这里会有很多他们没有预料到的额外开销。”

  Dijcks列举了IT领导在DIY Hadoop集群时的5个常见错误:

  1.他们试图以廉价的方式构建Hadoop

  很多IT部门不清楚Hadoop集群应该完成什么使命(除了分析某些类型的数据),所以他们会购买尽可能便宜的服务器。

  “Hadoop被认为是可自愈的,所以当服务器的一个节点出现故障,构不成大问题,”Dijcks称,“但如果你购买廉价的服务器,很多节点出现故障那么你就要花更多时间来修复硬件,如果一大堆节点都不运行了,这就会造成大问题。”

  如果你的Hadoop集群只是实验,那么以上这些可能不是问题。然而,很多实验性项目通常最后都会进入生产环境。IT部门认为,“我们已经投入了大量的时间,我们已经做了很多工作,现在我们需要将其投入生产,”Dijcks说道,“在实验期间,如果环境出现问题,只要重新启动即可,但在生产环境,集群需要能够抵御硬件故障、人为交互故障以及任何可能发生的事情。”

  Forrester公司在其2016年第二季度报告“大数据Hadoop优化系统”中指出,我们需要大量时间和精力用于安装、配置、调试、升级和监控通用Hadoop平台的基础设施,而预配置Hadoop优化系统可提供更快的时间价值、降低成本、最小化管理工作以及模块化扩展功能。

  2.太多“厨师”

  大多数IT部门将自己分为软件、硬件和网络组,而Hadoop集群跨越了这些分组,所以DIY Hadoop集群最终会成为很多有说服力的“厨师”的产物。

  Dijcks称:“在这种情况中,你有一个食谱来参考,但负责不同领域的人并不会完全遵循食谱,因为他们喜欢与食谱要求略有不同的做法。“所以最终,Hadoop集群不会按照预期那样运行。

  在进行故障排除后,系统应该能够启动以及让IT运营人员在生产环境中运行,但Dijcks称:“这是另一个学习曲线开始的地方,他们可能不熟悉Hadoop集群,你会看到很多人为错误、停机时间等一系列问题。”

  3.他们没有意识到Hadoop DIY项目是特洛伊木马

  在Hadoop集群转移到生产环境后,企业通常会发现他们需要安排专门的工作人员来保持其运行。Dijcks称:“当然,这个工作人员的大部分时间花费在维护上,而不是创新。”此外,这名工作人员还需要了解Hadoop系统。

  他警告道:“你不能期望人们在很短时间内变成Hadoop专家。”即使你雇佣经验丰富的工作人员,但IT环境差异性很大--DIY Hadoop集群组件也是如此。因此,在你特定环境中的所有配置、连接和相互关系都需要花时间来了解。

  4. 他们低估了更新的复杂性和频率

  新版Hadoop(例如来自Cloudera和Hortonworks)每三个月发布一次,这些通常包含新特性、新功能、更新、漏洞修复等。

  “除了保持Hadoop集群运行所需的所有人类操作外,每三个月都会有新的升级版本,”Dijcks称,“你完成升级的那一刻,你必须开始规划下一次升级。这相当复杂,所以有些人开始跳过更新。”即使你跳过几次更新,最终你还是会需要更新,例如从5.4升级到5.7。

  虽然Cloudera和Hortonworks会尝试测试尽可能多的场景,“他们不能测试你特定操作系统版本或者对特定工作操作的影响,”Dijcks称,“你的环境可能有思科路由器或者Red Hat操作系统或者IBM硬件,同时,如果这个集群正用于大数据生产项目,而你需要更新时,就有可能会制造出明显的停机时间。”

  5. 他们没有准备好应对安全挑战

  在Hadoop早期,安全没有被视为一个大问题,因为集群仍位于防火墙后面。而现在,安全已经成为最大的问题。

  目前Kerberos身份验证已经内置到Hadoop来解决这些问题,但有些IT企业不知道如何处理此协议,“整合Kerberos到企业的Active Directory非常复杂,”他表示,“你需要在Active Directory和一系列组件之间进行非常多集成工作。且这方面的文档非常少,最要命的是这涉及到安全管理员和IT其他团队,这些人员几乎是使用完全不同的语言。”

  有些IT部门最终会与Cloudera、Hortonworks或其他第三方签署合同以保护他们的DIY Hadoop集群。“这需要一些时间才能完成设置、测试等工作,”Dijcks称,“然后每过三个月,你都需要重新做一次,以确保应用和配置等一切的正常运行。”

作者: 邹铮译 

来源:IT168

原文链接:DIY Hadoop大数据环境的5大陷阱

时间: 2024-09-06 21:06:14

DIY Hadoop大数据环境的5大陷阱的相关文章

Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践

随着IT技术的飞速发展,各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务.目前,医疗IT系统收集了大量极具价值的数据,但这些历史医疗数据并没有发挥出其应有的价值.为此,本文拟利用医院现有的历史数据,挖掘出有价值的基于统计学的医学规则.知识,并基于这些信息构建专业的临床知识库,提供诊断.处方.用药推荐功能,基于强大的关联推荐能力,极大地提高医疗服务质量,减轻医疗人员的工作强度.   二.Hadoop&Spark  目前大数据处理领域的框架有很多.   从计算的角度上看,主要有MapRed

Spark架构在大数据环境的核心位置找到用武之地

Webtrends公司的IT团队在Apache Spark这款处理引擎还是一项学术研究项目的时候就已经开始使用它并沿用至今.但当Webtrends在2014年年中部署了一套基于Hadoop的大数据环境来对分析应用程序进行增强的时候,Spark架构便成了一个有限的角色:有关数据索引的聚合细节有助于用户发现相关信息.现在,一切都已改变,而且该公司正在花大力气学习Spark并作为其大数据平台升级版本的一部分. Webtrends从网站,移动设备和物联网收集用户活动数据提供给企业客户用于分析,它将Spa

大数据环境下的网络安全挑战分析

文章讲的是大数据环境下的网络安全挑战分析, 大数据架构和平台算是新事物,而且还在以一种非凡的速度不断发展着.商业和开源的开发团队几乎每月都在发布其平台的新功能.当今的大数据集群将会与将来我们看到的数据集群有极大不同.适应这种新困难的安全工具也将发生变化.在采用大数据的生命周期中,业界仍处于早期阶段,但公司越早开始应对大数据的安全问题,任务就越容易.如果安全成为大数据集群发展过程中的一种重要需求,集群就不容易被黑客破坏.此外,公司也能够避免把不成熟的安全功能放在关键的生产环境中. “大数据”一词常

在云中搭建一个大数据环境需要考虑的十大因素

大数据作为 IT 领域的一个概念已经被很多人所认同.正如 IT 领域的许多方面一样,新技术最初由大型企业先使用,然后在整个使用曲线的晚期,中小型企业才开始使用它.大数据似乎也经历了相同的过程. 随着大数据在真实世界中不断发展,它逐渐被应用于不那么大的数据元素.大部分标准认为较小的数据集正通过特定于大数据架构的方式被大数据工具处理. 尽管如此,人们一致认为未来会有更多的数据,而不是更少:更多数据源会将数据发送给企业,数据流动速度将有增无减.这就是大数据未来的用武之地.关于这个领域,出现的一个问题是

大数据环境下的社科文献情报研究

信息技术正飞速发展,互联网已被普及利用,各种终端设备记录了人类社会复杂频繁的信息行为,从而产生了惊人的数据量.在大数据时代,数据分析被提升到了前所未有的高度.这无疑会给社会科学文献情报研究带来巨大的挑战,同时也使它迎来了重要的发展契机.本文对大数据分析和社会科学文献情报研究的关系进行对比研究,同时对大数据环境下社会科学文献情报研究的发展趋势进行展望. 大数据分析(Big Data Analytics,BDA)是指对大数据进行分析,从中找出可以帮助决策的隐藏模式.未知的相关关系以及其他有用信息的过

大数据环境下的地税预算执行审计

看起来纷繁复杂的海量数据资料,通过分析,可以发现很多有用的信息,可以告诉我们很多隐藏在数字背后的秘密,并有效提高决策的准确性.淘宝根据购物记录可以推荐买家可能会喜欢的商品,餐厅根据用餐记录可以推荐消费者可能喜欢的菜单.大数据审计分析可以通过对相关领域长年累月形成的数据的分析,挖掘出某种群体行为的特点,提示某种社会现象的潜在规律,为政府制定政策提供关键依据,同时还可以评估政府政策的实施效果,从而帮助政府不断发现问题,改进问题.下面笔者结合自己从事的地税审计业务浅谈在大数据审计分析中的心得体会,以达

十八款Hadoop工具帮你驯服大数据作业

文章讲的是十八款Hadoop工具帮你驯服大数据作业,Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道.这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来.有些项目负责数据管理.有些负责流程监控.还有一些则提供先进的数据存储机制. Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持.在托管集群中提供按时租用服务.为这套开源核心开发先进的功能强化或者将自有工具添加

如何让Hadoop结合R语言做大数据分析?

为什么要让Hadoop结合R语言? R语言和Hadoop让我们体会到了,两种技术在各自领域的强大.很多http://www.aliyun.com/zixun/aggregation/7155.html">开发人员在计算机的角度,都会提出下面2个问题.问题1: Hadoop的家族如此之强大,为什么还要结合R语言? 问题2: Mahout同样可以做数据挖掘和机器学习,和R语言的区别是什么?下面我尝试着做一个解答:问题1: Hadoop的家族如此之强大,为什么还要结合R语言? a. Hadoop

XFS:大数据环境下Linux文件系统的未来

本文讲的是XFS:大数据环境下Linux文件系统的未来,Linux有好多种件系统,但往往最受关注的是其中两种:ext4和btrfs.XFS开发者Dave Chinner近日声称,他认为更多的用户应当考虑XFS.他谈到了为了解决XFS中最严重的可扩展性问题所做的工作,还谈到了他认为将来的发展走向.如果他说的一点都没错,接下来几年我们在XFS方面有望看到更多的动静. XFS经常被认为是适合拥有海量数据的用户的文件系统.Dave表示,XFS非常适合扮演这个角色;它对许多工作负载而言向来表现不俗.以前往