云计算已在大数据分析中发挥重要作用

大数据并不是实时vs.批处理的问题。正如Ovum的分析师Tony Baer和其他一些分析师所指出的那样,这不是一个非此即彼的问题。鉴于现如今的企业用户在制定一套成功的大数据战略方面有着广泛的选择和大量的工作负载,上述分析师的论断也并不奇怪或有什么值得争议的。

更具争议性的话题是,虽然也许并不令人感到惊讶,是从被需要用以获得大多数大数据的基础设施中获得其性质。例如,AWS(亚马逊Web服务)的数据科学主管马特·伍德警告说,虽然“分析是会令人上瘾的,但如果你企业的基础设施跟不上的话,这种积极的上瘾会迅速逆转。”

伍德说,大数据项目的成功的关键,不仅仅只是选择Spark或Hadoop。其运行还依赖于弹性的基础设施。

Hortonworks公司的企业战略副总裁肖恩·康纳利认为,云计算已经在大数据分析中发挥了很大的作用。但康纳利表示,决定大数据在何处进行处理的最大的因素是“数据的引力”,而不是弹性。

康纳利说,企业部署大数据项目的主要的驱动因素是要扩大和加强传统的内部部署的系统,如数据仓库。最终,这会导致大型企业需要在多处位置部署Hadoop和其他分析集群——通常需要在企业现场。

然而,康纳利也承认,对于开发和测试新的分析应用程序和处理来自企业外部的大数据而言,云计算已然成为了新兴的且越来越受欢迎的选择。

大数据分析的基本成分

AWS大数据的客户范围相当广泛,既包括像Reddit这样的初创型企业,也包括Novartis和Merck这样的大规模的企业,对于任何一款分析系统而言,伍德均建议企业从如下三大关键要素开始考量:

1、单一来源的真相。AWS提供了多种方式以存储单一来源的真相(single source of truth),从S3存储到像DynamoDB或RDS或从Aurora到诸如Redshift这样的数据仓库解决方案。

2、实时分析。伍德说,企业通常会利用streaming数据传输来增加这种单一来源的真相,如网站点击量或金融交易情况。而AWS则提供了Kinesis以帮助实现实时的数据处理,其他已有的选项包括诸如Apache Storm 和Spark。

3、专用任务集群。任务集群是一组运行诸如Hadoop这样的分布式框架的实例,但能够执行专门的任务,如数据的可视化。

考虑到上述这些要素,伍德重申,大数据并不是一个批量处理VS.实时处理的问题,而是涉及广泛的工具集,可以让你以多种方式处理数据:

其不是选择Spark或Hadoop的问题。其应该是一个多种选择相加的“和”问题,而不是一个二选一的“或”的问题。如果你企业使用Spark,不排除你企业会在其他领域采用传统的MapReduce或Mahout。你必须选择恰当的工具,已完成工作。

在伍德看来,“实时数据处理的绝对会有进行向前发展的潜力,但其应该是大数据系统的催化添加剂。”

这也呼应了Hadoop的创始人Doug Cutting不久前在接受记者采访时所说的。他在回答关于streaming数据传输或实时数据处理是否会取代如Hadoop的问题时,表示说:

我不认为市场会朝着streaming数据传输有任何大规模的转向。而streaming数据传输现在加入到处理选项,企业用户能够有方法进行相应的处置。当他们需要互动的BI时,他们会用Impala;当他们需要分面搜索(faceted search)时,他们会使用Solr;当他们需要实时分析时,他们会使用Spark Streaming。企业当然也还是会进行回顾性分析,也会采取批处理的方法。一个成熟的平台用户可能会使用所有这些。

Hortonworks公司的康纳利对于未来的发展也持有类似的观点。Hadoop被企业作为一种以相当低的成本在现有应用程序的筒仓扩展数据仓库和基础设施分析的方法。但随着客户变得更加成熟,新的数据源,新的工具,会经常会让云计算也参合进来:

如果你在考虑采用围绕着360度视角的商业用例(其在不同的孤岛整合客户或产品数据),其可能已经开启。但你的机器学习和数据发现可能是在云中。你可能有新的数据集如天气数据和普查数据,而这些数据在您企业内部已经不可能有了,所以你可能要将现有数据进行组合,以便执行先进的机器学习。

康纳利说,因为物理定律禁止数百TB或PB级的数据跨网络进行方便的迁移,客户将开启Hadoop集群和各种云,以便能够在大部署数据一登陆,就执行相应的分析。即他所谓的“数据的重要性”这一术语。当来源于企业外部的新的数据集到达时(如气象数据、人口普查数据,以及机器和传感器的数据),云计算成为一个执行数据处理的天然场所。

建立弹性和规模化

虽然很多人错误地认为大数据就是海量的数据,却忽视了大内在的更常见的繁杂的种类和传递速度的快速的特点,其真实的数据量也不像某些人认为的那样简单。

在亚马逊的伍德看来,大数据所带来的挑战“与其说是有关数据的绝对规模,还不如说是其相对的规模。”也就是说,虽然像人类基因工程这样的项目可能始于十亿字节规模的项目,但其很快就进入TB级,然后发展为PB级的规模。 “客户目前正在经历工具规模的大幅转变。”伍德指出,但是,当规模进一步发生阶跃型变化时,企业有可能完全措手不及。

正如伍德在我们之前的谈话中告诉我的那样,“那些走出去购买昂贵的基础设施的企业会发现,问题的范围和领域的转变真的太快了。当他们刚刚解答了最初的问题的时候,企业的问题可能已经转移了。”

换句话说,“企业需要一个平台,能够允许他们不断的从一种规模进入到下一种规模,乃至再下一种规模。如果您数据中心无法应付如此大规模的转变,那么,您企业的业务可能无法随着时间的推移而向前迈进。”

伍德举了天气预报频道作为一个例子,在过去,我们可能只会每个四个小时获得一次仅仅只覆盖了几百万个地理位置的天气报告,而现在,在AWS上每隔几分钟都会有设计几十亿出地理位置的天气状况的数据更新,而且还是保证百分百的正常运行时间。换句话说,这不仅仅是关于大数据的处理,而且还涉及到数据的云交付。

对于Hortonworks公司的康纳利来说,云计算的灵活性与其弹性的可扩展性一样重要。“我们开始进行更多的开发测试,让我们可以只需采用ad hoc集群即可实现围绕着数据子集的工作,”他说。

他说,特别是在机器学习的情况下,你可以为机器学习解决方案推动足够的数据,让您得以能够在云中创建你的决策模型。该模型将被用于更广泛的应用程序,其可能部署到其他地方。

“云计算对于前端的‘概念证明,以及让一些初步应用开始启动’非常有帮助,”他补充道。“一旦这样做了,问题就变成了:“因为这涉及到大量的数据,其是否需要迁移到企业内部,或是将其留在云中?”

康纳利说,最终,这不是一个将数据“全部托管在云”与“全部存储在企业内部”的困境的问题。大量的情况是:只要大量的数据被生成,相应的分析就将继续。而在其他的情况下,如机器或传感器数据流的处理情况下,云是一个自然的起点。

康纳利认为:“在接下来的一年或两年,围绕着企业希望将预算花费在何处、数据的来源、以及企业希望在何处运行技术的话题将掀起广泛的讨论,我认为这将是一个广泛联系的混合的经验技术周期。”

然而,其到底将如何形成,很明显,最成功的大数据战略将包括一系列的在云计算中运行的大数据技术。

本文作者:litao984lt

来源:51CTO

时间: 2024-11-08 21:09:19

云计算已在大数据分析中发挥重要作用的相关文章

Twitter在伊朗眼下总统选举的政治动荡中“发挥重要作用”

微型博客网站Twitter共同创始人艾萨克·斯通16日声明,网站前一天临时调整系统维护时间,并非应美国国务院要求以"方便"伊朗用户传递抗议活动信息.不过,国务院承认,一名官官员先前向Twitter提出类似"请求",因为这家即时信息共享网站在伊朗眼下由总统选举结果争议引发的政治动荡中"发挥重要作用". 官员电邮 美国<纽约时报>17日报道,国务院官员贾里德·科恩15日下午发电子邮件给Twitter另一名共同创始人杰克·多尔西,要求这家网

郭树清:让市场在资源配置中发挥基础性作用

由财新传媒主办的"2010财新峰会:中国与世界"于2010年11月5日-6日在北京举行.主题为:变革世界的中国策.建设银行董事长郭树清发言表示, 中国市场经济的重要问题是体制不合理,行政性干预过多地,公平竞争的环境比较差.以下为郭树清发言实录: 郭树清:在昨天,建设银行的市值达到了2470亿美元,名列全球第一.在这之前有一系列不利的消息,比如大股东,汇金公司的股票解禁流通,另外我们也开始配股,所以市场的认可度对银行是一个很大的鼓励,这也是中国国有商业银行改革取得巨大成就的一个重要表现.

下一代主流云计算产品:大数据分析

为了进一步丰富其云产品阵线,隶属于时代华纳有线电视公司的云计算及托管企业NaviSite公布一项新的产品计划,旨在为客户提供存储服务.正如分析师所说,这一行动标志着云服务厂商向大数据分析市场迈出的重要一步. 在Interop2012大会上,NaviSite公司公布了一款名为NaviCloudIntelligentStorage的智能存储产品.该产品基于EMCAtmos云架构,允许企业客户在它的帮助下存储.备份并实现文件共享.NaviSite公司原先一直在经营传统的托管应用程序服务,近几年来则转向

光纤将在5G发展中发挥关键作用

近日,康普公司表示,在宽带发展的将来,网络融合将大规模采用光纤.此前,康普共同赞助了Telecoms.com Intelligence的"宽带展望2016"调研,结果显示光纤将在5G发展以及所有FTTH部署的网络速度方面发挥关键作用. "未来光纤将更加深入网络,以应对日益增长的带宽需求."康普公司FTTx接入解决方案副总裁Dieter Verdegem表示,"当受访者中有90%认为多系统运营商将会为5G而合并光纤网络,以覆盖FTTH和光纤回程时,其意义是无

盘点云计算的6大数据分析服务的公司

云计算和数据分析是天造地设的一对.云的模型http://www.aliyun.com/zixun/aggregation/18736.html">允许用户可以通过网络使用服务提供商的基础设施,在云端处理大量数据的同时,还需要强大的数据分析软件才能使其发挥完全的威力.值得庆幸的是,海量的数据与云已经彼此融合,以下几家公司已经形成了自己的基于云端的数据分析服务服务. 1.Quantivo: Quantivo刚刚于星期二宣布推出云计算为基础的分析平台.该平台从多种来源组合业务数据,并对其进行充实

数据专家在大数据分析中的作用

大http://www.aliyun.com/zixun/aggregation/13768.html">数据科学家的工作从企业的业务问题开始,下一个步骤是创建分析计划,即一些企业称之为"数据分析计划."当然,你需要考虑到数据科学家的不同专业背景,如有数学界.软件工程.市场营销学.工商管理等等,几乎所有的数据科学家都会从他们的专业领域出发,设置各种技巧最终整合制定出专注于解决业务问题的计划. 数据科学家和他们的分析团队的计划提出了如何组装数据集,并制定了一个数据如何被用

开发精准抗癌药物 大数据将发挥重大作用

大数据方法或将帮助开发更精准的抗癌药物,据悉,关于癌症过程的基因突变,科学家正开始积累庞大的数据集,这将会让"精准医疗"更加系统化. 在7月7日在线发表的Cell上的一篇文章中,研究人员比较了患者肿瘤和癌细胞系中的基因突变,并检测了这些细胞系对治疗药物的反应.通过分析这些数据集的在哪些地方重叠,研究者能够开始在大规模上预测哪些药物将更好地抗击癌症. 上万肿瘤样本与上千细胞系数据 Wellcome Trust Sanger研究所的癌症生物学家Mathew Garnett说:"我

Twitter成危急救助平台:飓风中发挥重要作用

Twitter专门开设了"#Sandy"(#桑迪)专题页面 http://www.aliyun.com/zixun/aggregation/17197.html">北京时间10月31日消息,飓风"桑迪"周一晚袭击了美国东海岸,导致电力和互联网连接中断,在此期间,Twitter再次发挥了重要作用. 由于电力中断,互联网无法访问,数百万的美国居民将Twitter视为新闻源和911求助热线,而政府机构也通过Twitter传播相关信息,发布灾情报告. 在去年

安全领域中的大数据分析

企业定期收集几TB与安全相关的数据(比如网络事件.软件应用程序事件,以及人员活动事件), 用来作合规性和事后取证分析.据估计,不同规模的大型企业每天发生的事件在上百亿到上千亿之间.随着企业启用的事件记录源越来越多,雇用的员工越来越多,部署的设备越来越多,运行的软件越来越多,这些数值还会继续增长.不幸的是,这种数据量和多样性会迅速变成骆驼背上的稻草.现有分析技术无法应对大规模数据,通常都会产生很多误报,因此功效被削弱了.随着企业向云架构迁移,并且收集的数据越来越多,这个问题进一步恶化了. 大数据分