Spark取代MapReduce成为Apache顶级项目

  Apache Spark是一种内存数据处理框架,目前已经升级成为Apche的顶级项目,这有助于提高Spark的稳定性,在下一代大数据应用中取代MapReduce的地位。

  Spark最近势头很猛,大有取代MapReduce的趋势。本周二Apache软件基金会宣布Spark升级成为顶级项目。

  由于性能和速度由于MapReduce,且更加容易使用,Spark目前已经拥有一个庞大的用户和贡献者社区。这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求。

  Spark的创建者来自加州伯克利大学,目前已经创办了一家名为Databricks的公司推动Spark的商业化。

  从技术上来看,Spark是一个单独的项目,但被设计成能与Hadoop分布式文件系统(HDFS)一起工作,可以直接在HDFS上运行,SIMR使用户无需管理员权限和安装就可MapReduce集群上运行,而且得益于YARN(下一代Hadoop资源规划器和资源管理器),Spark如今能够与MapReduce在同一个集群上运行。Hadoop企业应用先驱Cloudera已经开始向客户提供Spark的企业应用支持。

  虽然很多新的项目(例如Hortonworks的Stinger)采用了不同的处理框架,但是MapReduce和Spark还缺少很多工具(例如Pig和Casading),而对于一些特定的批处理任务来说,MapReduce依然是上佳的选择。正如Cloudera联合创始人Mike Olson指出的:MapReduce有大量的遗留工作负载,短时间内不会转移,即使Spark上位。

时间: 2024-08-01 11:14:09

Spark取代MapReduce成为Apache顶级项目的相关文章

Apache SystemML 孵化成功成为 Apache 顶级项目

Apache 软件基金会宣布 Apache SystemML 从孵化器毕业,正式成为 Apache 顶级项目(TLP). Apache SystemML 是一个优化大数据的机器学习平台,为使用大数据的机器学习提供了最佳的工作场所. 它可以在 Apache Spark上运行,会自动缩放数据,逐行确定代码是否应在驱动程序或 Apache Spark 群集上运行. 使用 Apache SystemML,数据科学家能够在不了解分布式编程的情况下,使用高级语言概念实现算法. 根据数据大小/形状和数据稀疏性

Apache 顶级项目 Wink 将由于不活跃而终止

近日,Apache 发布了一封终止 Apache Wink 项目相关事项的邮件,宣布Apache 顶级项目 Wink 将由于不活跃而终止,具体内容如下: Announcing that the Apache Wink committers have voted to retire the project due to inactivity. Wink was a simple yet solid framework for building RESTful Web services. It is

Metron & Fineract 双双升级成 Apache 顶级项目

Apache 软件基金会宣布 Metron 以及 Fineract 从孵化器毕业,正式成为 Apache 顶级项目(TLP). Apache Metron 是一个网络安全的实时数据处理.分析.查询.可视化框架,于2015年12月进入 Apache 孵化器.项目集成了各种开源大数据技术,为安全监控和分析提供了集中工具. Metron 拥有支持大规模摄取.处理.检索与信息可视化的所有适当元素,一些关键的网络数据将推动数据保护.监控.分析与检测,并且有助于对恶意的非法行为予以回应. 亮点包括: 捕获.

Apache NiFi 孵化成功成为 Apache 顶级项目

2015年7月20日,Apache 基金会通过其博客宣布Apache NiFi顺利孵化完成称为Apache的顶级项目之一. Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流.基于其工作流式的编程理念,NiFi非常易于使用,强大,可靠及高可配置.两个最重要的特性是其强大的用户界面及良好的数据回溯工具. NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的进行迭代. 其数据回溯特性允许用户查看一个对象

Apache Geode 毕业为 Apache 顶级项目

2016年11月21日,Apache软件基金会(the Apache Software Foundation,ASF)宣布 Apache Geode已从Apache孵化器毕业成为顶级项目(Top-Level Project),表明该项目的社区和产品已根据ASF的精英流程和原则得到良好管理. 2016年11月21日,Apache软件基金会(the Apache Software Foundation,ASF)宣布 Apache Geode已从Apache孵化器毕业成为顶级项目(Top-Level

Deltacloud成为Apache顶级项目

近日,Apache软件基金会(ASF)宣布Apache Deltacloud已经从Apache Incubator(Apache孵化项目)升级为顶级开源项目(TLP). Deltacloud是RedHat公司于2009年9月开发的一套开源API,其定义了一种RESTful Web服务,旨在提供一种统一的方式,来与云服务提供商以及云端资源进行互动. 此外,Deltacloud还包括一些针对目前最流行的云服务的API实现,如Amazon.Eucalyptus.GoGrid.IBM.Microsoft

Apache® CarbonData™ 成 Apache 软件基金会顶级项目

Apache软件基金会正式宣布CarbonData从Apache孵化器毕业,正式成为Apache顶级项目(TLP),这也是首个由中国公司发起并捐献给Apache基金会的开源项目. Apache CarbonData是由华为开源贡献的大数据高效存储格式解决方案.针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持"交互式分析.详单查询.任意维度组合的过滤查询等"多种大数据应用场景,并通过丰富的索引技术.字典编码.列

Apache 基金会宣布 Apache Eagle 成为顶级项目

2017年1月10日, 由超过350个开源项目及创新计划,全部由开发志愿者,治理志愿者及孵化志愿者组成的Apache软件基金会(ASF),宣布Apache Eagle已经从Apache孵化器项目毕业,正式升级成为顶级项目(TLP),这标志着该项目的社区和产品依照ASF精英管理的流程和原则顺利运作. Apache Eagle是一个开源监视和警报解决方案,用于智能实时地识别大数据平台上的安全和性能问题,例如Apache Hadoop,Apache Spark等. "我们很自豪Eagle能顺利度过孵化

Apache Spark 成为 Apache 基金会顶级项目

Apache 基金会宣布旗下的 Apache Spark 项目成为基金会的顶级项目,拥有顶级域名 http://spark.apache.org/ 基金会称 Spark 的用户包括:阿里巴巴.Cloudera.Databricks.IBM.英特尔和雅虎. Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,