掌握方法 如何利用Hadoop廉价大数据分析

大数据将成为本年度的云计算。这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势、网站访问和习惯、客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了。当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载。

  对于较大的公司来说,海量数据处理已经不是什么新鲜东西了。例如,Twitter和LinkedIn已经是大数据的著名用户了。这两家公司已经各自形成了一套明显的竞争优势,通过挖掘他们的大规模数据仓库来识别趋势。那么,中型企业CIO该怎么办呢?幸运的是,在你手边就有可用的工具,可以让你,或者更具体地说是你的业务分析师,可以支持大数据处理,不至于贪多嚼不烂。。

  这些工具中有一款是免费的,即基于Java的Apache Hadoop编程框架。该框架在过去一年到一年半时间里在大数据领域获得了极大的市场。全球的行业专家和用户们都把Hadoop称为事实上的数据挖掘标准。纵观现存其它大数据产品的表现,再考虑到Apache Hadoop1.0版是在2011年11月底才发布的这一事实,Hadoop获得这样的认可确实令人惊讶。Hadoop是如此流行,以至于Hortonworks公司CEO Eric Baldeschwieler预测在2017年它将处理全世界数据的半数之多。在接下来的这一年,Hadoop将会以某种方式靠近您的组织的几率非常大。

  Hadoop主要面向开发人员。其主要框架MapReduce支持编程者处理分布式计算机群的大规模数据量。缺点是它是非常重型的产品。而且,Hadoop可以把直接操作数据仓库的技术人群与数据消费人群和数据翻译员区分开来。

  考虑到中型企业CIO的预算限制,下面有一些建议可以帮助克服海量数据的挑战:

  不要忽略了趋势。大数据不会消失,不能忽略大块数据分析转换能力和分析数据趋势。花一些时间理解Hadoop以及其它大数据产品的功能和结构。思考一下你拥有数据的方式可以为你的公司带来改善。

  为合格的数据科学家寻找预算空间。这些人是您BI交响曲的打击乐器。市场上合格的数据科学家非常紧缺。甚至在去年11月份的Hadoop世界大会上,培训也成为了一个很大的话题。要使用你培训预算的自由额度聘请最好的人员,保持他们的数据分析技能是顶尖的。

  理解大量数据集的存储提示。大数据其实是从多个地方和多个数据库以近乎实时的速度挖掘海量数据,而不会受到结构的障碍。这就使得你基础设施中的存储工作方式更加复杂了。对于这些奴表,云存储可能会更灵活和敏捷吗?要与你的数据挖掘策略团队一起,使其优先理解利用Hadoop处理能力的存储需求类型和数量。

  准备好使用Hadoop的工具集。理解微软公司在这个领域的登场,试验一下Hadoop-Excel和Hadoop-SQL Server集成看看你能交付什么类型的结果。也要了解一下IBM公司的工具,看哪一款更适合您在桌面和终端用户软件方面的现有投入。

  大数据的角逐已经开始了。可能在数据挖掘变革中你已经落后了。忽略数据分析大势的CIO们实际上是在拿自己的职业冒险。然而,对于已经跳入大数据领域并提取关键见解的CIO们,全世界都将在他们的掌握之中。

(责任编辑:蒙遗善)

时间: 2024-12-23 13:56:04

掌握方法 如何利用Hadoop廉价大数据分析的相关文章

如何利用Hadoop廉价大数据分析

大数据将成为本年度的云计算.这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势.网站访问和习惯.客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了.当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载. 对于较大的公司来说,海量数据处理已经不是什么新鲜东西了.例如,Twitter和Linke

如何利用Hadoop廉价大数据处理分析

大数据将成为本年度的云计算.这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势. 网站访问和习惯.客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处 理企业这么大量的数据时已经有点不够用了.当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载. 对于较大的公司来说,海量数据处理已经不是什么新鲜东西了.例如,Twitter和Lin

《Hadoop金融大数据分析》读书笔记

<Hadoop金融大数据分析> Hadoop for Finance Essentials 使用Hadoop,是因为数据量大数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据称主大数据 3V定义:即"大量Volume,多样Variety,高速Velocity是与大数据相关的三个属性或维度.大量指的是数据的量很大,多样指的是数据的类型很多,高速指的是数据处理的速度很快 对于一家处理GB级数据的小公司来说,TB级的数据可能被认为是大数据,对于处理TB级数据的大公司来说,PB

微软发布新的Hadoop Azure大数据分析服务

就像微软把Excel 表单处理引进到商务领域一样,微软希望其推出的 新的Windows Azure HDInsight服务能够利用大数据分析带来 同样的影响力. 微软数据平台事业部总经理Eron Kelly表示:"我 认为,我们一直做的很好的事情是解决困难的技术问题并且简化这些问题.因此,我们正在使Hadoop更简单并且把它提供给每一个人." Windows Azure HDInsight是作为Windows Azure平台服务提供的.这项服务提供一个Apache Hadoop数据处理

超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce

本文翻译自<BIG DATA ANALYTICS BEYOND HADOOP>译者:吴京润 译者注:本文是本书第一章的开头,第一章其它部分由其他人翻译. 你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验.或者你是一个政府监管机构,需要为互联网页进行色情或非色情的分类以便过滤色情页面,同时还要做到高吞吐量以及实时性.或者你是一个通讯/移动服务提供商--要么你在这样的公司工作--而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入

超越Hadoop的大数据分析之前言

本文翻译自<BIG DATA ANALYTICS BEYOND HADOOP>译者:吴京润 校对:方腾飞 我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了.考虑一下这样一条时间线:由谷歌实现的MapReduce投入使用的时间可追溯到2002年,发表于2004年.Yahoo!于2006年发起Hadoop项目.MR是基于十年前的数据中心的经济上的考虑.从那时以来,已经有太多的东西发生了变化:多核心处理器.大内

超越Hadoop的大数据分析之致谢

本文翻译自<BIG DATA ANALYTICS BEYOND HADOOP>译者:许巧辉 首先,我要衷心感谢Vineet Tyagi.AVP和Impetus的创新实验室主管.Vineet对我帮助很大,并促使我写这本书.在6.7月份,每个工作日他给我3个小时的时间写作本书,这是帮助我完成本书的关键.任何学术活动都要专门花费很多时间--这时候就得加倍努力,因为我必须在工作之余写作.Vineet令写作成为我工作的一部分. 我也想对Pankaj Mittal.CTO和SVP.Impetus表示感谢,

超越Hadoop的大数据分析之图形处理尺寸

本文翻译自<BIG DATA ANALYTICS BEYOND HADOOP>译者:许巧辉 另一个来自Google的重要工具,看起来超越了Hadoop MR--Pregel框架实现了图形计算(Malewicez et al.2010).在Pregel中的计算是由一系列迭代组成的,被称为supersteps.图上的每个顶点都与一个用户定义的计算函数相关联:Pregel确保每个superstep在图的每条边上并发调用用户定义的计算函数.顶点可通过边发送消息,并且顶点间可交换值.这也是个全局同步--

Hadoop的大数据分析技术与其未来发展趋势

2014是一个IT风云变幻莫测的一年,传统的行业都积极走向了互联网,从MWC大会闭幕我们可以看出未来互联网比拼的再也不是硬件而是"软"实力了.来自多个渠道的信息显示,阿里巴巴集团近期正与携程旅行网洽谈投资入股事宜.如果合作交易最终达成,将标识着在线旅游业也进入了百度.阿里巴巴.腾讯(BAT)三巨头阵营划分下的寡头竞争时代.BAT各自都在整合自己的产业链,未来大数据处理直接带动整个行业,目前整个IT行业也趋向于大数据和商业智能(BI),大数据带来的潜在商业价值将不可限量. 市场研究机构I