Spark不是唯一,三种新兴的开源数据分析工具

物联网带来了众多传感器及其他设备,它们在生成源源不断的数据流,而物联网只是推动市场需要新型分析工具的重大趋势之一。比如需要流数据分析工具来改善药物发现,美国宇航局和搜寻外星文明研究所(SETI)甚至在开展合作,分析数TB复杂的外太空无线电信号流。

虽然Apache Spark在数据分析领域抢走了许多风头,那是由于IBM及其他公司在这方面投入了数十亿美元的研发资金,但几个藉藉无名的开源项目也在迅速崛起。下面是值得探讨的三种新兴的数据分析工具。

1.Grappa

大大小小的企业组织正在致力于研究从数据流提取宝贵信息的新方法,其中许多在处理集群上生成的数据,而且在日益处理商用硬件上生成的数据。这样一来,成本合理的、以数据为中心的方法受到了重视,这种方法可以改善MapReduce、甚至Spark等工具的性能和功能。Grappa开源项目这时候闪亮登场了,它可以在大众化集群上扩展数据密集型应用程序,并且提供了一种新型的抽象机制,比经典的分布式共享内存(DSM)系统更胜一筹。

你可以 在此 获得Grappa的源代码,并找到关于它的更多信息。Grappa的起源是这样的:一群在克雷(Cray)系统上运行大数据任务方面有着丰富经验的工程师想,是不是可以与克雷系统在现成商用硬件上能够实现的分析功能一较高下。

正如开发人员特别指出:“Grappa在足够高级的层面提供了抽象,因而包括数据密集型平台所常见的许多性能优化。然而,其相对低级的接口又提供了一种方便的抽象,以便在此基础上构建数据密集型框架。(简化版)MapReduce、GraphLab和关系查询引擎的原型实现就建立在Grappa的基础上,它们的性能比原有系统更胜一筹。”

采用BSD许可证的Grappa在GitHub上可以免费获取。如果你有兴趣看看Grappa是怎么实际运行的,可以在应用程序的README文件中遵照通俗易懂的快速启动说明,构建Grappa应用程序,并在集群上运行。

2.Apache Drill

Apache Drill项目在大数据领域带来了重大的影响,以至于MapR等公司甚至把它纳入到其Hadoop发行版中。它是Apache的一个顶级项目,与Apache Spark一同应用于许多流数据场景。

比如说,在今年1月份召开的纽约Apache Drill大会上,MapR的系统工程师展示了Apache Spark和Drill如何可以协同用于涉及数据包捕获和近实时查询及搜索的一种使用场合下。

Drill在流数据应用程序中之所以如此出名,是因为它是一种分布式、无模式(schema-free)的SQL引擎。开发运维和IT人员可以使用Drill,以交互方式探索Hadoop及其他NoSQL数据库(比如HBase和MongoDB)中的数据。不需要明确定义和维护模式,因为Drill可以自动充分利用嵌入到数据中的结构。它能够在操作员之间的内存中流式传输数据,并且尽量减少使用完成查询所需的磁盘。

3.Apache Kafka

Apache Kafka项目已凭借实时数据跟踪功能俨然成为一颗明星。它提供了处理实时数据的功能,具有统一、高吞吐量、低延迟等优点。Confluent及其他组织还开发了自定义工具,以便Kafka与数据流结合使用。

Apache Kafka最初由LinkedIn开发,后来在2011年年初开放了源代码。它是一种经过加固和测试的工具,许多企业组织要求员工拥有Kafka方面的知识。使用Kafka的知名公司包括思科、网飞、贝宝、优步和Spotify。

LinkedIn当初开发Kafka的那些工程师还成立了Confluent,它专注于Kafka。Confluent大学为Kafka开发人员以及操作员/管理员提供培训课程。现场课程和公开课程都有提供。

本文作者:佚名

来源:51CTO

时间: 2024-09-08 06:14:20

Spark不是唯一,三种新兴的开源数据分析工具的相关文章

Apache Spark 之外的三种新兴的开源数据分析工具

在数据分析方面,影响深远的变化正在酝酿之中,而开源工具在引领许多变化.当然,你可能已熟悉这个领域的一些明星开源项目,比如 Hadoop 和 Apache Spark,不过现在出现了强烈的要求,需要全面完善数据分析生态系统的新工具.值得注意的是,许多这些工具是为了处理流数据而定制的. 物联网带来了众多传感器及其他设备,它们在生成源源不断的数据流,而物联网只是推动市场需要新型分析工具的重大趋势之一.比如需要流数据分析工具来改善药物发现,美国宇航局和搜寻外星文明研究所(SETI)甚至在开展合作,分析数

Ubuntu自启动Mysql的三种方式_Mysql

1..软件环境: Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64) MySQL 5.6.27 x64 2.方法一 最简单的方法是执行命令: 复制代码 代码如下: # update-rc.d mysql defaults  Adding system startup for /etc/init.d/mysql ...    /etc/rc0.d/K20mysql -> ../init.d/mysql    /etc/rc1.d/K20m

大数据流式计算三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology).这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行.一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去:而bolt

大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流.下面对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology).这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行.一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去:而bolt则

Apache Spark三种分布式部署方式比较

其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本和提高资源利用率(资源按需分配).本文将介绍这三种部署方式,并比较其优缺点. standalone模式,即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统.从一定程度上说,该

流式大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology).这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行.一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt

iOS 设备唯一 ID 的三种替代方法之一

iOS 设备唯一 ID 的三种替代方法之一 太阳火神的美丽人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致"创作公用协议 转载请保留此句:太阳火神的美丽人生 -  本博客专注于 敏捷开发及移动和物联设备研究:iOS.Android.Html5.Arduino.pcDuino,否则,出自本博客的文章拒绝转载或再转载,谢谢合作. [UIDeviceuniqueIdentifier] 文档中指明的替代方法之一(一共有三个替代方法):

产品经理需注意的三个问题和企业的三种心态

文章描述:中国式产品管理 探索中前行. 1998年,宝洁公司的EPS(Earnings Per Share,每股收益)只有14%~15%,低于华尔街的期望.1994~1999年,宝洁公司的收益始终在1.4%~5.5%之间,低于公司内部7%的目标.在1998年前的整整十年中,宝洁公司始终没有推出一个有影响力的新品牌. 究其原因,除了受到更多传统竞争对手(如联合利华)以及新兴竞争对手(如沃尔玛自有品牌)的冲击外,还有一个更为重要的原因是宝洁曾经引以自豪的品牌管理系统出现了创新匮乏.效率低下的问题.

解读:“长尾”将带来的三种力量

我们可以把长尾理论浓缩为简单的一句话: 我们的文化和经济重心正在加速转移, 从需求曲线头部的少数大热门( 主流产品和市场)转向需求曲线尾部的大量利基产品和市场.在一个没有货架空间的限制和其他供应瓶颈的时代, 面向特定小群体的产品和服务可以和主流热点具有同样的经济吸引力. 但唯有所有人购买.使用或以其他方式分享这些新利基产品, 选择空间的大爆炸才会转化为一种经济和文化力量.上述一切的发生全都少不了一个至关重要的经济扳机: 降低获得利基产品的成本.成本为什么会降低? 不同市场有不同的答案, 但原因通