Citus Data公司正在把CitusDB朝Hadoop发展

近日,数据库初创公司Citus Data实现了Hadoop数据上的快速SQL查询,其实这也不是什么大事,因为对于他们的来说,更大的目标在后面。Citus Data已超越Postgres将其高速、分析数据库CitusDB扩展到Hadoop上,接着应该即将扩张到MongoDB以及其它你已经想到的数据库产品上。GigaOM的记者Derrick Harris认为,Citus Data是所有人都需要的唯一分析型数据库,它不仅能够数据的查询,而且,不管在怎样的存储环境之中——关系型数据库、Hadoop、MongoDB、 Amazon S3或者还有其他的地方。它都占有一席之地。

大数据已经打开了企业数据分析以及选择性数据存储的视野。那么这两项的结合往往意味着需要学习新的语言,使用多工具处理,而且在分析平台上还可能需要牺牲一部分性能。

Citus Data公司的旗舰产品就是CitusDB,它通常建立在PostgreSQL之上,第一代的目的就是为关系型数据设计像谷歌Dremel这种规模和速度的数据库。由于其中的一项功能“foreign data wrappers”,所以它能够在多种数据类型(像CSV, log以及JSON files,而且这些数据类型在原生的Postgres上是并不匹配的)上运行SQL。所以当CitusDB除了Postgres之外,还官方支持Hadoop文件分布式系统(HDFS),这就意味着绝不仅限于这些。

Matt Ocko是数据收集的负责人,也是Citus Data早期的投资者之一,他认为数据库从技术来来讲应该支持任何使用ODBC驱动的数据源,甚至能够直接从存储的数据中直接查询日志文件。事实上,Citus正在致力对MongoDB的支持——这种能力现在已经在测试版上了。Ocko强调了CitusDB像“网”一样的能力,它能够连接各种数据源,而不需要用户进行独立的查询,然后再手动地连接数据。他举了一个例子,使用CitusDB跨Postgres和Hadoop做join查询。

另外一点就是,CitusDB不仅具有良好的灵活性而且很快。Ocko说到CitusDB已经超越甲骨文Exadata machine上引以为豪的一个TPC-H基准测试(数据直接存储在硬盘上)。上文中提及的运行在亚马逊EC2云上的Postgres-Hadoop查询仅仅在几秒钟之内就完成了。

Citus的联合创始人Umur Cubukcu告诉Derrick,CitusDB之所以如此之快是因为它的架构:取代将数据在网络中传输,它将焦点聚集到数据位置的计算,并且在资源间具有强大的负载平衡能力。比如,需要一个很慢节点上储存的资源去完成完成一个任务,取代一味的等待它会去其它的节点上寻求相同的资源。

以Hadoop举例,MapReduce把计算带给了数据,但是每一个Job需要对整个数据集进行扫描。这就是早期的Hadoop上的SQL查询工具Hive现在仍然很慢的原因。曾经在Cloudera工作的Citus的软件工程师Carl Steinbach表示,CitusDB比Hive查询数据类型的速度快3到20倍。在一个典型的互动环境中,短查询的实际的速度可能还会更快。但是他同时指出,这些并不是Hive真正的设计目的所在。

然而,CitusDB真正的竞争对手是SQL-On-Hadoop的项目,产品还有很多初创公司。下个月“Structure: Data”有一系列的话题为围绕于此展开,届时Aster Data,Platfora,Cloudera(Impala),Apache Drill,Drawn to Scale以及Hadapt都会展现各自的风采。

这些都是令人印象深刻的技术(至少在理论上,它们仍然处在发展阶段),Citus可能会不小心的忽视他们。但是除了可以查询多个数据源之外,Citus仍然还有自己独特的产品,这是其他的公司所不具备的。“当你在谈论一个企业级的数据库的时候”Steinbach表示,“那么谈论的内容绝对不仅仅是一个查询执行引擎。”

【编辑推荐】

盘点数据库2012:大数据市场争夺白热化十个最有用的云数据库阿里云产品介绍——关系型数据库RDS高负载低延迟:我们用的是Hadoop+AWS+NoSQLNoSQL依赖的不只是大数据 还有应用程序架构的改变【责任编辑:箫韵 TEL:(010)68476606】

时间: 2024-10-26 10:35:02

Citus Data公司正在把CitusDB朝Hadoop发展的相关文章

Altiscale公司公布其可出租Hadoop产品

Altiscale公司正式公布其可出租Hadoop产品,旨在简化给无数用户带来困扰的软件复杂性难题. Altiscale集群服务允许企业用户将Hadoop集群的更新与维护工作外包给由前谷歌及雅虎员工们组成的技术团队,该团队承诺帮助用户从数据分析平台管理工作中解脱出来. Altiscale公司由Raymie Stata所创立,他曾经在雅虎刚刚构建Hadoop项目时为其提供帮助.截至2011年离职之前,他已经成为雅虎公司首席技术官,并逐步积累起担当企业家角色的经验. 如今的他已经成为Altiscal

Tech Data公司是全球最大的技术产品经销商之一

近日,信息安全解决方案提供商卡巴斯基实验室同捷克的Tech Data公司结成最新的合作伙伴,加强在欧洲市场的投入.通过合作,将PC销售渠道同卡巴斯基实验室现有销售渠道的进行整合,制定发展计划,争取在三年内让卡巴斯基实验室跻身捷克地区三大反病毒安全解决方案提供商之一. 据了解,Tech Data公司是全球最大的技术产品经销商之一,其在全球100多个国家有超过125,000个经销商,通过先进的物流和增值服务,以高效率和高性价比满足全球终端用户的技术需求. 卡巴斯基实验室波罗的海地区.匈牙利.捷克以及

解读:分布式计算平台Hadoop 发展现状

雅虎开发者Doug Cutting六年前创建了一个用于管理,存储和分析 大量数据的分布式计算平台hadoop,现在大家也称云计算平台,用他儿子的玩具大象命名,并把它交给阿帕奇软件基金会.鉴于围绕Hadoop建立的整个行业的迅速,这会使某些人 觉得非常惊讶,那就是阿帕奇软件基金会最近才推出了Apache Hadoop 1.0--被 认为是足够 稳定而成为"企业就绪"的第一个版本. Hadoop乱象 雅虎开发者Doug Cutting六年前创建了一个用于管理,存储和分析大量数据的平台,用他

开源Hadoop发展迅猛 用户与厂商各取所需

就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构.多年来,开源初创公司Cloudera和Hortonworks在 Hadoop市场一直占有绝对地位,诸如Oracle.微软以及其他一些公司也想在这个市场占有一席之地,但更多是通过与专业的Hadoop初创公司建立伙伴关系间接地参与市场争夺. 大数据核心(图片来源google) 根据Forrester分析的最新报告,传统技术供应商会推出一系列强势的产品战略,即使所推出的Hadoop产品仍有许多有待完善的地方.但厂商们却希望提供基

Hadoop发展历程以及配套项目

Hadoop发展历程是怎样的呢? Hadoop原本来自于谷歌一款名为MapReduce的编程模型包.谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集.使用该框架的一个典型例子就是在网络数据上运行的搜索算法. Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台.Cloudera是一家企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务. GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloude

刘刚:从互联网到传统行业 Hadoop发展迅猛!

刘刚表示,目前Hadoop的应用正在从互联网行业到http://www.aliyun.com/zixun/aggregation/8150.html">传统行业快速的扩张,但是在传统行业中Hadoop还是要面临很多困难:Hadoop的安全性不能满足他们的需求:Hadoop的人才缺少:怎么把传统的业务迁移到Hadoop平台上来处理. -什么原因吸引你钻研Hadoop技术? 记得四年前跟着PKU的曹老师做项目的时候,曹老师让我去调研大数据技术,那个时候hadoop资料很少,只能去看官方的文档.

英特尔:中国成Hadoop发展主力

近日,任职于英特尔数据中心软件部的大数据产品高级顾问黎超先生表示,业内认为Hadoop对整个X86的发展会是一次重大的机会,鉴于英特尔是Apache主要贡献者之一,同时又希望能利用在软硬件方面的投入,能够使得Hadoop更容易走向传统行业,而并非仅仅局限于互联网行业. 另外,在英特尔看来,中国市场也是Hadoop发展的重点所在.因为长久以来,中国市场向来就是英特尔的第一大市场,因此英特尔将其Hadoop核心研发团队就完全设在中国上海,目的就是更好的去服务于我们本地的客户. 显而易见的就是,大家现

调研组对国家电网公司积极响应国家有关号召和发展需求及相关工作给予高度评价

国家信息化专家咨询委员会调研组在空军信息化专家咨询委员会副主任朱林的带领下来到http://www.aliyun.com/zixun/aggregation/5144.html">国家电网公司,调研国家电网公司物联网有关工作.调研组对国家电网公司积极响应国家有关号召和发展需求,以智能电网建设为契机,积极推进物联网研发应用.保障信息安全等工作给予高度评价. 调研组参观了国家电网公司信息通信调度监控中心,听取了国家电网公司物联网整体发展情况和经验介绍,就保障数据传输.信息安全等领域实际应用成效

天睿公司发布Teradata Loom 释放Hadoop数据价值

ZDNET至顶网CIO与应用频道 10月31日 北京消息:Teradata天睿公司宣布推出Teradata Loom 2.3.Teradata Loom 2.3 是首款在Hadoop框架内实现数据沿袭.集成元数据和数据整理功能的综合软件解决方案.依托这些突破性功能,Teradata Loom帮助数据分析师和数据科学家在Apache Hadoop框架内快速.轻松地发现.了解并跟踪数据,提升工作效率,加速实现大数据计划. Teradata Loom是一款数据管理解决方案,通过基于浏览器的界面处理Ha