四大云端大数据平台评测分析

当你已经准备好实施大数据,请仔细的评估云提供商提供的大数据功能,确保找到最合适的。下面我们来看一下四种云服务产品。

当谈到在云端实施大数据战略时,好消息是你会有很多选择。但是,这同时也是一个坏消息。来自Forrester Research最近的一份报告强调,尽管大数据云服务很强大,他们也有可能造成混乱,从而需要企业采用比传统的方式更加灵活,琐碎的方法。该报告的结论是:在云计算领域中没有一种服务是适合所有状况的。

最大的三家公有云平台—亚马逊Web服务(AWS)、微软的Azure和Google--提供了范围广泛的大数据服务,但每一种服务又完全不同。由于每个公司的大数据需求不同,技能集也不同,评估所有的平台来确保你获得的是正确组合的服务非常重要,Kirk Borne,乔治梅森大学的数据科学家,天文物理和计算科学教授同时也是一位知名的大数据专家这样建议道。

“任何大数据的实施都必须从你试图解决的问题开始,”Borne说。“你需要在花大把资金之前先了解企业的情况,确保你从可用的服务中选择正确的那个。”

下面来看下这三大主流云平台提供的大数据产品,以及第四家Altiscale,这是一家比较新的公司,有自己的Hadoop云平台。

AWS:选择和机遇

在每一项迁移到云的决策中,一个平台的“生态系统”,即服务、合作伙伴、专家和系统集成师扮演了重要的角色。根据Ouoble,一家在 AWS,Google和Azure平台提供大数据即服务公司的联合创始人兼CEO Ashish Thusoo的观点,AWS的生态系统要比其他的云平台更大、发展得更好。AWS生态系统使得这个平台对于想要将大数据迁移到云中的企业客户来说非常引人注目和令人感到安心,他说。

这种吸引力的一部分原因是因为各种可用的服务。亚马逊的一整套大数据服务包括了Hadoop的弹性MapReduce即EMR;用作数据流处理的 Kinesis;基于集群的数据仓库RedShift;面向亚马逊关系型数据库RDS的Aurora和My SQL(等其他);NoSQL数据库DynamoDB;超简单存储或者S3;还有全新的Amazon Machine Learning。

“AWS能够提供过去的历史报表和仪表盘,现有的数据流处理和分析,和现在未来预测的建模工具,”Mike Gualtieri,一名Forrester Research的分析师,Forrester大数据研究报告合著者说。他认为AWS的RedShift对那些已经厌倦了很慢的传统数据库环境中的报表的企业客户来说尤其诱人。“RedShift是AWS服务中发展最快的,将你的数据迁移到那里运行所有的分析非常合理,”他说。“这真的是一种云的合理使用方式。”

Google BigQuery:开发者之梦

Google的大数据平台BigQuery,是为流数据和持续分析而设计的。该平台有一个预测性的数据API,一些其它的Google专属API和标准的 Java产品。“关于Google的问题是它是非常面向开发人员的,比其他平台更加如此,”Gualtieri说。“在Google,你必须接受他们专有的技术和API,并且足够聪明到可以搞清楚。”Google平台提供了Hadoop作为一个大数据的选项,但是Gualtieri提醒公司企业如果想在 Google上运行Hadoop的话需要具备企业内部的专业技能。“它就在那里,但你最好自己要知道如何获得,具体到命令行的级别,”他说。

但对于某些公司,Ouoble的Thusoo说,Google则是最完美的选择,尤其当价格和性能决定一切的时候。“我们对Google在价格和性能上做了基准测试,Google在这块绝对是佼佼者,”他说,“性价比通常对创业公司非常重要,因此谷歌是他们的最佳选择。”

Azure:Hadoop之力

Azure平台的大数据产品HDInsight,和SQL数据库以及存储一起,旨在能够同微软流行的Excel电子表格无缝工作。这对于客户来说是一个巨大的卖点,因为根据Forrester的报告表明,在大数据所在的地方处理大数据(也叫数据重力)会让整个过程更轻松。“我真的认为Azure在混合领域里有其优势,”Thusoo说,“很大部分是因为微软可以利用自己本地应用的影响力。”

HDInsight是由Apache的Hadoop支持的,这也是一大吸引力,Forrester的Gualtieri说。“微软有许多不同的工具,包括机器学习和预测分析,”他说。“而对于任何想要用Hadoop做大数据分析的人来说,Azure是一个非常好的选择,因为它很容易获得并且具有强大的控制面板。”

Altiscale:一直都是大数据

成立3年的Altiscale最开始是在自己的云里推出Hadoop即服务。这家公司的创始人,Raymie Stata,在创建Altiscale之前曾是雅虎的CTO并且为这家网络巨头开发了Hadoop即服务。“Altiscale的设计从本质上是独一无二的,”Altiscale的COO Mike Maciag解释道。用户可以从三大云服务供应商获得“通用的”大数据服务,但Altiscale的云是从硬件以上都进行了定制可以更高效地运行大数据,Maciag说。“大型云供应商为很多的纵向处理提供了良好的计算密集型的功能,但大数据更多的是大规模并行处理,这意味着它是横向的。 Altiscape是专为Hadoop构建的来避免吵闹邻居的问题。”

本文作者:谈翔

来源:51CTO

时间: 2024-08-01 16:10:32

四大云端大数据平台评测分析的相关文章

IBM推出一站式分析服务 基于AI大数据平台

9月28日消息,据计算机电脑杂志报道,从很多方面来看,大数据依然属于未充分开发的前沿领域.要想从各种字节中找出有价值的洞见,依然需要敏捷的智慧与坚持不懈的精神.IBM于周二宣布推出基于AI大数据平台的一站式分析服务,希望能够更轻松地解决这些问题.IBM宣称,与其他数据平台相比,这项服务消化吸收数据的速度更快. IBM的新服务名为Project DataWorks,是基于云计算的新平台.IBM表示,它将是第一个整合所有类型数据.并利用人工智能(AI)进行分析的平台.Project DataWork

InfoSphere Streams一个分析移动中的大数据平台

来自多个来源的信息正在以难以置信的速度增长.互联网用户数量在 2012 年已经达到 22.7 亿.每一天,Twitter 都会生成超过 12 TB 的 tweet,Facebook 生成超过 25 TB 日志数据,纽约证券交易所采集 1 TB 交易信息.每天会创建大约 300 亿个射频识别 (RFID) 标记.此外,每年销售的数亿台 GPS 设备,目前正在使用的超过 3000 万个连网的传感器(而且每年在以高于 30% 的速度增长),都在产生数据.这些数据量预计在未来 10 年中每 2 年就会翻

大数据平台网站日志分析系统

1:大数据平台网站日志分析系统,项目技术架构图: 2:大数据平台网站日志分析系统,流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定

大数据平台架构技术选型与场景运用

一.大数据平台 大数据在工作中的应用有三种: 与业务相关,比如用户画像.风险控制等; 与决策相关,数据科学的领域,了解统计学.算法,这是数据科学家的范畴; 与工程相关,如何实施.如何实现.解决什么业务问题,这是数据工程师的工作. 数据工程师在业务和数据科学家之间搭建起实践的桥梁.本文要分享的大数据平台架构技术选型及场景运用偏向于工程方面. 如图所示,大数据平台第一个要素就是数据源,我们要处理的数据源往往是在业务系统上,数据分析的时候可能不会直接对业务的数据源进行处理,而是先经过数据采集.数据存储

国内首个大数据平台性能标准制定完成

今天越来越多的企业认识到,大数据的掌控和分析能力将成为竞争力的核心,企业对大数据的投资也在不断扩大.Gartner调查显示,73%的企业计划在未来两年内投资大数据.以开源Hadoop.Spark等为基础的大数据基础平台解决方案和云服务如雨后春笋不断涌现,形成了近200亿美元的市场规模.然而对于很多企业用户来说,如何评价一个大数据平台的综合能力,常常是选型.平台建设和系统优化时面临的一大挑战.目前来看,国内外还缺乏一套能体现大数据特点,又简便易行,且被工业界广泛认可的大数据平台性能测试标准与工具.

阿里十年经验输出,大数据平台“数加”的前世今生

2016 年1月20日,在云栖大会上阿里云发布了一站式大数据平台"数加",该平台集合了阿里巴巴十年的大数据能力以及上万名工程师实战检验,该平台是一站式的解决方案,首批亮相20款产品,覆盖数据采集.计算引擎.数据加工.数据分析.机器学习.数据应用等数据生产全链条. 数加平台由大数据计算服务(MaxCompute).分析型数据库(Analytic DB).流计算(StreamCompute)共同组成了底层强大的计算引擎,速度更快.成本更低.计算引擎之上,"数加"提供了丰

广东电网公司大数据平台初步建成

"广东电网公司积累的经营.管理和电网运行数据总量已超过2000TB,并仍以每年20%的速度快速增长,数据资产覆盖到营销.资产.生产等核心业务系统数据及企业外部数据,数据类型覆盖了结构化.非结构化数据及实时流数据,存在对数据的实时性处理速度快的数据应用需求场景,对于负荷预测.网架优化等分析结果要保证一定的准确性--总体来说具备大数据5V,即大体量(Volume).多样性(Variety).时效性(Velocity).准确性(Veracity).大价值(Value)的特征."广东电网公司信

从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的 Hadoop 和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台.这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡.此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患. 1. 计算框架篇 大数据的价值 只有在能指导人们做出有价值的决定时,数据才能体现其自身的价值.因此,大数据技术要服务于实际的用途,才是有意义的.

面向大容量存储 宝德大数据服务器评测

文章讲的是面向大容量存储 宝德大数据服务器评测,经过2013年一年的推广,大数据的概念已经成为当下作为火爆的IT概念.无论是消费类还是企业级产品,大数据都是炙手可热的关键词之一.从数据中心的角度来说,如何更好的利用大数据技术,势必需要硬件与软件的双重支持,而在硬件上的支持则处于基础地位.如今有许多服务器厂商推出了自己的大数据服务器,宝德作为国内知名的服务器厂商也是不甘落后.今天我们要介绍的就是来自宝德的大数据服务器,其型号为PR1912R. ▲宝德PR1912R大数据服务器 宝德PR1912R大