云计算和海量数据分析的组合注定应当配合在一起使用。云计算的模式基本上可以让用户利用服务商提供的基础设施和相关的专业知识而无需在其内部构建。
值得庆幸的是海量数据已和云计算有机地结合。专家预测,未来在此领域的投资将会逐渐增大。目前已有几家公司将云计算和海量数据融合在一起,并推出了特有的服务。
Quantivo
Quantivo在周二刚刚宣布进入这个市场,并推出了基于云的数据分析平台。该平台能够将来自多方的企业数据汇集在一起,并转化改进数据,然后用户可以通过Quantivo专用的接口使用这些数据。Quantivo表示其技术在收集客户数据集过程中需要通过“intelligently auto-compiling lists of patterns”预测。
101data
101data实际上在处理大数据领域已经有10年以上的时间经验。在人们谈论与计算之前,101data已经提供多种针对于海量数据实际使用中的特定服务,包括数据仓库和商业智能高级分析。客户可使用熟悉的工具与服务进行交互。例如电子表格,客户可以容易的找到他们想要的。101data的高级副总裁Tim Negris表示海量数据的收集以及存放和利用海量数据实际上完全是两回事。在做任何事前需要大量(准备数据)的工作是像Oracle和大多数数据库厂商所面临的难题之一。我们正是要消除这个难题,并把数据直接交到分析师的手中。
Opera Solutions
Opera Solutions是一个有趣的公司。尽管年收入达到1亿美元,但很少有人知道这家公司。虽然公司鲜为人知,但其提供的服务对客户而言还是相当具有吸引力的。客户将他们的数据上传到Opera平台之上,然后对数据进行分析,最后按照客户数据集相关“标记”分析出客户想要的数据。Opera并不满足于向客户提供普通的数据分析,Opera的业务侧重于按照每个客户的具体需求并采用各种行业的专业手段,以帮助每个客户满足其特有的数据分析需求。
IBM
IBM提供基于云服务的海量数据分析方面多种方案的选择,但目前IBM的策略似乎主要是围绕Hadoop在发展。IBM在4月推出了其SmartCloud云计算平台。并承诺改善Hadoop工作负载。IBM提供了基于Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights是用于分析和虚拟化海量数据的软件和服务,这款新产品由 Apache Hadoop 提供技术支持。)基本版和企业版。 InfoSphere BigInsights之前作为IBM测试和开发的云产品,现在被SmartCloud取代。
Amazon Web Services
AWS实际上不提供分析服务,AWS主要具有大规模并行处理框架和计算能力。Amazon Elastic MapReduce创建在Amazon EC2架构下由Hadoop软件来执行的数据处理工作流。它会自动按照客户的需求自动启动并配置一定数量的Amazon EC2实例。然后它会产生一个根据MapReduce编程模型的Hadoop实现,通过它从Amazon S3中读取大量的用户输入数据,并将他们分摊给生成的Amazon EC2实例去进行并行处理。同AWS的服务一样,Amazon Elastic MapReduce的客户只需要为他们使用的部分付费。
HPCC Systems
Hadoop依靠两个核心组件来存储和处理海量数据——Hadoop分布式文件系统和Hadoop Mapreduce。Cloudant公司CEO Mike Miller认为MapReduce在编写并行处理工作流时依然相对复杂,HPCC旨在通过ECL(Enterprise Control Language)改善这一局面。HPCC提供两种数据处理和服务的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。Escalante表示如此命名是因为其能像Thor(北欧神话中司雷、战争及农业的神)一样解决困难的问题,Thor主要用来分析和索引大量的Hadoop数据。而Roxy则更像一个传统的关系型数据库或数据仓库,甚至还可以处理Web前端的服务。虽然没有深入探讨HPCC存储组件的细节,但Escalante表示HPCC基于分布式文件系统,并可支持各种off-node存储架构和本地的SSD。HPCC系统已经在金融业和其他重要的行业中普遍应用。(李智/编译)
原文链接:gigaom
(责任编辑:杜庆先)