10gen发布MongoDB与Hadoop连接器

10gen近日宣布他们已经推出MongoDB与Hadoop连接器(1.0版)。这个版本将提供一年的维护。10gen的工作也为用户提供了在MongoDB部署与Hadoop集群数据处理的一体化工具。此连接器支持Hadoop 0.20.x以上的版本。

连接器的核心功能主要是提供将MongoDB所存储的数据读入Hadoop MapReduce,同时将MapReduce处理过的数据返还到MongoDB。用户还可以选择是批量写入数据或是单独用在某个用例上。10gen的目标就是在Hadoop生态圈中建立对用户有意义的组件。

在1.0版本中10gen还提供了如下特性:

●从Pig写入数据到 MongoDB

●从Flume 分布式日志系统写入到 MongoDB

●在MapReduce中支持Python,并通过 Hadoop Streaming 读取并写入数据到MongoDB

在未来10gen团队将会继续完善他们的工作,据悉未来将会考虑对Ruby的支持,以及脱机处理MongoDB备份文件读写的能力。(李智/编译)

关于MongoDB

Mongo是一个高性能,开源,无模式的文档型数据库,它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发,提供了以下功能:

◆面向集合的存储:适合存储对象及JSON形式的数据。

◆动态查询:Mongo支持丰富的查询表达式。查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象及数组。

◆完整的索引支持:包括文档内嵌对象及数组。Mongo的查询优化器会分析查询表达式,并生成一个高效的查询计划。

◆查询监视:Mongo包含一个监视工具用于分析数据库操作的性能。

◆复制及自动故障转移:Mongo数据库支持服务器之间的数据复制,支持主-从模式及服务器之间的相互复制。复制的主要目标是提供冗余及自动故障转移。

◆高效的传统存储方式:支持二进制数据及大型对象(如照片或图片)。

◆自动分片以支持云级别的伸缩性(处于早期alpha阶段):自动分片功能支持水平的数据库集群,可动态添加额外的机器。

MongoDB的主要目标是在键/值存储方式(提供了高性能和高度伸缩性)以及传统的RDBMS系统(丰富的功能)架起一座桥梁,集两者的优势于一身。根据官方网站的描述,Mongo适合用于以下场景:

◆网站数据:Mongo非常适合实时的插入,更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。

◆缓存:由于性能很高,Mongo也适合作为信息基础设施的缓存层。在系统重启之后,由Mongo搭建的持久化缓存层可以避免下层的数据源过载。

◆大尺寸,低价值的数据:使用传统的关系型数据库存储一些数据时可能会比较昂贵,在此之前,很多时候程序员往往会选择传统的文件进行存储。

◆高伸缩性的场景:Mongo非常适合由数十或数百台服务器组成的数据库。Mongo的路线图中已经包含对MapReduce引擎的内置支持。

◆用于对象及JSON数据的存储:Mongo的BSON数据格式非常适合文档化格式的存储及查询。

时间: 2024-08-02 06:37:13

10gen发布MongoDB与Hadoop连接器的相关文章

MongoDB集成Hadoop进行统计计算

MongoDB本身可以做一些简单的统计工作,包括其内置的基于Javascript的 MapReduce框架,也包括在MongoDB 2.2版本中引入的新的统计框架.除此之外, MongoDB 还提供了对外部统计工具的接口,这就是本文要说的MongoDB-Hadoop的 数据中间件.文章内容来源于MongoDB官方博客. 原理图解 MongoDB与Hadoop相结合的方式如下图所未,MongoDB作为数据源存储以及 数据结果存储.而具体的计算过程在Hadoop中进行. 这一套处理流程,允许我们通过

初体验SQL Server 2012的Hadoop连接器

本文讲的是初体验SQL Server 2012的Hadoop连接器,电影<天下无贼>中一句经典的"21世纪什么最贵?人才!",体现了以人为本的价值观.而实际上,深处大数据时代的我们,是不是也应该幽默一回:"21世纪什么最值钱?数据!".对于企业而言,除了人才,数据也是最重要资产之一. "大"数据的价值 面对如此庞大的数据,企业该如何挖掘其中的商机呢?这里给出一些应用场景,简单梳理一下大数据的价值所在: ·在以用户为中心的SNS网络中,

mongodb for hadoop

mongodb for hadoop mongodbhadoop&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 溺水的鱼(273654 900) 9:57:37 sharing 溺水的鱼(273654900) 9:58:02 如果再慢, 就利用hadoop 溺水的鱼(273654900) 9:58:11 mongodb for hadoop 溺水的鱼(273654900) 9:58:36 sharing  mon

微软发布新的Hadoop Azure大数据分析服务

就像微软把Excel 表单处理引进到商务领域一样,微软希望其推出的 新的Windows Azure HDInsight服务能够利用大数据分析带来 同样的影响力. 微软数据平台事业部总经理Eron Kelly表示:"我 认为,我们一直做的很好的事情是解决困难的技术问题并且简化这些问题.因此,我们正在使Hadoop更简单并且把它提供给每一个人." Windows Azure HDInsight是作为Windows Azure平台服务提供的.这项服务提供一个Apache Hadoop数据处理

数据传输DTS新功能发布—MongoDB不停机迁移

背景 随着MongoDB的普及,使用MongoDB的用户越来越多.在使用MongoDB的过程中,可能会因为上云.扩容.拆分等业务需求,需要进行 MongoDB的数据迁移.MongoDB官方提供了迁移工具mongodump/mongorestore,然而这个工具只能进行全量导入导出,为了保证迁移数据一致性,它要求数据迁移过程中,源MongoDB上的应用程序需要停机.所以,这种迁移方式对业务影响极大.为了降低MongoDB迁移门槛,DTS于8月份正式上线MongoDB不停机迁移,实现在MongoDB

使Couchbase Server能够与Hadoop连接器通信

Hadoop 非常适合处理大量数据并将该信息解析为您可查询的较小的信息集.但是,通过与 Couchbase Server 集成,您可以对信息执行实时查询和报告,同时继续使用 Hadoop 处理大型数据集和数据集的繁重处理工作. Hadoop 和http://www.aliyun.com/zixun/aggregation/14345.html">数据处理 Hadoop 将许多重要特性结合在一起,这使 Hadoop 对于将大量数据分解为更小.实用的数据块非常有用. Hadoop 的主要组件是

MongoDB资料汇总

与大家共勉~ 1.MongoDB是什么 MongoDB介绍PPT分享 MongoDB GridFS介绍PPT两则 初识 MongoDB GridFS MongoDB GridFS 介绍 一个NoSQL与MongoDB的介绍PPT MongoDB:下一代MySQL? 写给Python程序员的MongoDB介绍 又一篇给Python程序员的MongoDB教程 MongoDB源码研究系列文章 白话MongoDB系列文章 MongoDB Tailable Cursors 特性介绍 MongoDB 文档阅

发布Apache Hadoop 2.6.0——异构存储,长时间运行的服务与滚动升级支持

发布Apache Hadoop 2.6.0--异构存储,长时间运行的服务与滚动升级支持 我很高兴地宣布,在Apache的Hadoop社区已经发布的Apache Hadoop的2.6.0:http://markmail.org/message/gv75qf3orlimn6kt! 特别是,我们很高兴在此版本中相关的三个主要片:异构存储在HDFS使用SSD和内存层,支持长时间运行在YARN服务和滚动升级,将升级您的集群软件,然后重新启动升级的节点而无需关闭群集或丢失正在进行的工作.YARN作为其架构中

Hortonworks发布Hadoop重要贡献公司名单

Yahoo新成立的Hadoop公司http://www.aliyun.com/zixun/aggregation/14112.html">Hortonworks,最近发布"Yahoo对Hadoop贡献"一文,标榜Yahoo是Hadoop最大贡献者,Cloudear CEO很不满,又爆出更为细致的分析数据, 从中,我们可以清晰看到各公司参与Hadoop参与情况:特别值得注意:华为公司在Hadoop重要贡献公司名单内,排在Google和Cisco的前面,说明华为公司也在积极