Google开源C/C++版MapReduce框架

摘要: 据GigaOM消息,Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了。

Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了。

Hadoop是许多大数据应用的基础,它是由Apache基金会所开发的分布式系统基础架构,主要由分布式文件系统HDFS和计算框架MapReduce组成。由于原先的MapReduce是用Java编写的,与C++相比,在性能上要略逊一筹,因此,许多处理大规模数据集的软件公司都开发了自己的专有系统来在MapReduce框架之内执行其原生代码。Facebook的HipHop(将PHP转换为C++)以及MemSQL执行前将SQL转为C++代码也都是出于同样的性能考虑。

MR4C原先由卫星影像公司Skybox Imaging开发,目的是为了优化其地理空间数据及计算机视觉代码库。MR4C围绕着几个简单概念开发而成,其目标是将MapReduce的重要细节抽象化,允许用户专注于开发有价值的算法。去年6月,Google收购了Skybox。半年之后的现在,又将MR4C开源出来。这对于没有能力开发专有系统或者对Java不感冒的开发者来说无疑是一个福音。

当然,MR4C的受欢迎程度仍有待观察。因为在数据处理方面,Apache Spark是一个速度比Mapreduce更快的框架,它支持Scala、Python和Java(但不支持C/C++),已经引起了开发社区极大的兴趣。

时间: 2024-10-28 12:26:20

Google开源C/C++版MapReduce框架的相关文章

Google 开源 C/C++ 版 MapReduce 框架

据GigaOM消息,Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了. Hadoop是许多大数据应用的基础,它是由Apache基金会所开发的分布式系统基础架构,主要由分布式文件系统HDFS和计算框架 MapReduce组成.由于原先的MapReduce是用Java编写的,与C++相比,在性能上要略逊一筹.因此,许多处理大规模数据集

Google宣布将MapReduce框架MapReduce for C开源

摘要: 据GigaOM消息,Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了. Google上周宣布,将自己用C++开发的MapReduce框架MapReduce for C(MR4C)开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了. Hadoop是许多大数据应用的基

为MapReduce框架使用SQL类语言:使用高级声明式接口让Hadoop易于使用

简介 在过去二十年中,计算能力的稳步增强催生了铺天盖地的数据量,这反过来引起计算架构和大型数据处理机 制的范式转换.例如,天文学中的强大望远镜.物理学中的粒子加速器.生物学中的基因组测序系统都将海量数据交到了科 学家手中.Facebook 每天会收集 15TB 的数据到 PB 级的数据仓库中.在业界(例如,Web 数据分析.点击流分析和网络 监控日志分析)和科学界(例如,大规模模拟产生的数据的分析.传感器部署以及高吞吐量实验室设备),对大型数据挖掘 和数据分析应用的需求都在增加.尽管并行数据库系

为MapReduce框架使用SQL类语言

它将应用程序与运行分布式程序的细节分离开来.不过很多程序员不熟悉 MapReduce 编程风格,喜欢使用类似 SQL 的语言来执行其任务.本文概述了一些旨在应对这些问题的高级语言和系统,并在 MapReduce 框架之上添加了声明接口 (declarative interface). 在过去二十年中,计算能力的稳步增强催生了铺天盖地的数据量,这反过来引起计算架构和大型数据处理机制的范式转换.例如,天文学中的强大望远镜.物理学中的粒子加速器.生物学中的基因组测序系统都将海量数据交到了科学家手中.F

Hadoop新MapReduce框架Yarn详解

Hadoop MapReduceV2(Yarn) 框架简介 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式 处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者 可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框 架图: 图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原 Map

更快、更强——解析Hadoop新一代MapReduce框架Yarn

对于业界的http://www.aliyun.com/zixun/aggregation/13982.html">大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,随着需求的发展,Yarn 框架浮出水面, @依然光荣复兴的 博客给我们做了很详细的介绍,读者通过本文中新旧 Hadoop MapReduce 框架的对比,更能深刻理解新的 yarn 框架的技术原理和设计思想. 背景 Yarn是一个分布式的资源管

D1net阅闻:Google开源iOS软件测试工具EarlGrey

Google开源iOS软件测试工具EarlGrey Google宣布开源软件EarlGrey.据了解,EarlGrey为一款帮助开发者测试针对iOS软件建立和运行代码的工具.EarlGrey目前已经在GitHub的Apache 认证中可以使用.外界普遍表示,本次开源非常重要,因为EarlGrey正是Google自己用于测试iOS软件的工具.包括Youtube.GoogleCalendar.Google Photo.Google Translate和Google Play Music在内的多款软件

介绍Hadoop新的map-reduce框架(Yarn)的原理

读者通过本文中新旧 hadoop map-reduce 框架的对比,更能深刻理解新的 yarn 框架的技术原理和http://www.aliyun.com/zixun/aggregation/8511.html">设计思想,文中的 Demo 代码经过微小修改即可用于用户基于 hadoop 新框架的实际生产环境. 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介

开源 OPNFV 专案推出 NFV 框架 Danube,整合 DevOps

開源OPNFV專案最近推出的最新一版NFV框架Danube,不只支援了多個涵蓋運算.儲存和網路虛擬化的開源專案(如上圖左),以及可供開發測試和部署NFV的實驗基礎架構,還開始加入自動化開發維運流程DevOps(如上圖右),能透過IT自動化.持續整合和持續交付,以提供企業加速NFV功能測試和自動化部署. 新版開源NFV框架Danube也是OPNFV專案推出的第4個版本,相較於前一版的Colorado主要專注於擴大NFV應用和服務發展,NFV框架新版本Danube最大特色是將可供自動化協同維運和開發