eBay开源新数据库技术Kylin,支持TB到PB级数据量

【编者按】eBay开源了一种名为 Kylin 的数据库技术,eBay在周三的一篇博客上分享了Kylin 的诸多细节,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量,Kylin旨在减少Hadoop在10亿行以上数据级别的情况下的查询延迟。这些都表明eBay在使用Hadoop技术等方面取得了不俗的成绩。

以下为译文:

在线拍卖网站eBay开源了一种名为 Kylin 的数据库技术,该公司宣称这项技术能够在Hadoop上支持PB级数据存储的快速查询。eBay并不是像Google和Facebook那样的大数据公司,但它运用Hadoop等技术已经达到了一个相当大的规模,Kylin就是一个很好的例子,这说明它在该领域的创新已经走在前头。

eBay在周三的一篇博客上分享了Kylin的细节,包括REST API、ANSI-SQL兼容性、连接分析工具Tableau和Excel,以及在一些查询上低于秒级的延迟。然而, Kylin最独特的特性是它如何处理scale。eBay表示,它可以查询数十亿行数据——在高达14TB的数据集上,速度比使用传统的Apache Hive工具快得多。

Kylin工作在一个很高级别上,它从Hive取数据;使用MapReduce预处理大型查询;然后将这些结果作为键值cuboids存储在HBase上。当用户用一组特定的变量值运行一个Kylin查询,结果已经准备就绪,不需要再重新处理,这和已经使用多年的分析型数据库完全不同。

下面是eBay分享的Kylin如何在公司内部的使用情况:

开放Kylin的时候,我们已经有一些eBay业务单元在生产中使用它。我们最大的用例是120+亿源记录生成的14 +TB cube。它的90%查询延迟小于5秒。现在,我们的用例瞄准分析师和业务用户,他们可以轻松的通过Tableau分析并且得到结果——不再需要Hive查询,shell命令等等。

想要知道Kylin在与下一版本的Hive、Spark SQL以及Hadoop SQL分析的其他选项较量中谁会胜出,将是一件非常有趣的事情,Kylin作为YARN资源管理器一部分可以在Apache Hadoop的最新版本上获得。我猜它会慢一点,但比内存选项或那些不需要MapReduce处理的更具扩展性,不过这对于那些仍然在运行更早软件版本的用户可能是一个可靠的选择。

原文链接: eBay open sources a big, fast SQL-on-Hadoop database (编译/魏伟 审校/仲浩)

免费订阅“CSDN云计算(左)和CSDN大数据(右)”微信公众号,实时掌握第一手云中消息,了解最新的大数据进展!

CSDN发布虚拟化、Docker、OpenStack、CloudStack、数据中心等相关云计算资讯,     分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、内存计算、流计算、机器学习和智能算法等相关大数据观点,提供云计算和大数据技术、平台、实践和产业信息等服务。

时间: 2024-10-23 03:32:19

eBay开源新数据库技术Kylin,支持TB到PB级数据量的相关文章

Teradata 推动全球数据库技术变革

Teradata 推动全球数据库技术变革 最聪明的数据库软件,最智能的分析 中国,苏州--全球领先的数据分析解决方案厂商Teradata天睿公司(Teradata Corporation,美国纽约证券交易所交易代码:TDC)日前宣布在全球发行 Teradata Database 14数据库,该款数据库拥有 80 多种新特性和 60 款新内置分析功能,为客户提供变革性的数据库技术,支持突破性商业智能策略. Teradata Database 14凭借整合的行列混合技术.市场领先的改善工作负载管理的

《数据库技术原理与应用教程》一1-1概述

1-1概述 当今社会是一个"数据"社会,"数据"二字使用频率极高.此外,大家还时常听到"数码""信息"等新名词,它们在计算机领域中都是"数据"的不同表现形式.一般而言,客观世界的自然界与人类社会中的各种现象与事物都可以抽象为计算机中的数据,我们常说的"数据链""数字电视""数码相机"等正是这种抽象的一个体现. 经过这种抽象后,客观世界中的事物均可转

《数据库技术原理与应用教程第2版》——第1章 数据、数据管理与数据处理1.1概述

第一篇 基础篇 数据库技术是计算机学科中的一门重要分支,它已有五十余年历史并已成为一门完整的学科,其主要内容包括基础理论.基本操作及开发应用等.数据库技术的基础理论部分是构成该学科的基石,它给出了该学科的抽象的.全局的研究结果并对整个学科起指导性作用.在本书中,基础部分由两方面内容组成,它们是数据库技术的一般性理论和关系数据库技术的理论.1数据库技术的一般性理论第1~3章介绍数据库技术的一般性理论.其中第1章介绍有关数据.数据管理与数据处理的一般性概念:第2章介绍数据库技术中的基础知识:第3章

《数据库技术原理与应用教程(第2版)》——第一篇 基础篇 第1章 数据、数据管理与数据处理 1.1 概述

第一篇 基础篇 数据库技术是计算机学科中的一门重要分支,它已有五十余年历史并已成为一门完整的学科,其主要内容包括基础理论.基本操作及开发应用等. 数据库技术的基础理论部分是构成该学科的基石,它给出了该学科的抽象的.全局的研究结果并对整个学科起指导性作用. 在本书中,基础部分由两方面内容组成,它们是数据库技术的一般性理论和关系数据库技术的理论. 1.数据库技术的一般性理论 第1~3章介绍数据库技术的一般性理论.其中第1章介绍有关数据.数据管理与数据处理的一般性概念:第2章介绍数据库技术中的基础知识

二者密不可分 建设智慧城市产生TB到PB海量数据

数字城市技术把基础地理数据.正射影像.街景景象数据.全景影像数据.三维模型数据结合在一起,在政务网上,通过注册可以进行服务共享,在公共平台.互联网.公网上,通过二次开发可以提供各种交通.导航.旅游.文物.购物等服务系统.物联网能够实现人与人.人与机器.机器与机器的互联互通,实现智慧城市的各种应用.智慧城市蕴含大数据城市是生存繁衍最好的地方,城市是社会交往的地方,是文化享受的地方,按照城市的职能,我们让它智能化,比如智慧安防.智慧环保.智慧能源.智慧城管.智慧养老.智慧国土规划.智慧社区.智慧家居

关键字的模糊匹配,数据量很大,在C#中有没有高效一点的办法,不用数据库,谢谢

问题描述 关键字的模糊匹配,数据量很大,在C#中有没有高效一点的办法,不用数据库,谢谢 关键字的模糊匹配,数据量很大,在C#中有没有高效一点的办法,不用数据库,谢谢 解决方案 分词,倒排索引,然后查询.总之要想速度快,需要多花一些存储空间. 解决方案二: C# 匹配

MariaDB TX 2.0:新的开源企业数据库解决方案

企业都在寻找可提高它们数据库灵活性.可扩展性.安全性,并支持一系列不同的用例,同时还可降低成本的数据库技术. 另一方面,开发者也需要一个开放和可扩展的数据库,让他们可以轻松开发多种不同类型的应用. 开源专家 MariaDB 公司正在寻找解决这些矛盾需求的方案,于是 MariaDB TX 2.0 诞生了--用于现代应用程序开发的开源事务数据库解决方案. MariaDB TX 是一个建立在 MariaDB Server, MariaDB MaxScale 和 MariaDB Cluster 之上的事

【应用 业务】做数据库技术支持的一点感悟

想不出什么好标题,也不想做什么标题党.说说今天工作中遇到的问题吧!先总结一句:了解应用的DBA才是一名合格的DBA! 开发人员要求解决一条SQL 语句问题.即过滤自身,比如 id 1 2 3 4 点id=1的那行,显示id in (2,3,4)的就对了 起初以为很简单,写了一条大致如下: select * from t where not exists (select 1 from t t1 where t1.id=:id  and t.id=t1.id) 这个是测试的语句,一个是笛卡尔乘积,一

什么是面向列开源分布式数据库Hbase - 产品和技术

什么是面向列开源分布式数据库Hbase 发布时间:2012.04.16 14:41      来源:和讯     作者:和讯 HBase是一个分布式的.面向列的开源数据库,由Apache基金会开发.HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.它基于列的而不是基于行的模式.用户存储数据行在一个表里.一个数据行拥有一个可选择的键和任意数量的列.用户可根据键访问行,以及对于一系列的行进行扫描和过滤.HBase一个可以横向扩张的表存储系统,能够为大规模数据提供速度极快的低等