Druid —— PB 级的 OLAP 数据实时查询引擎

Druid 是为大型数据集上实时探索查询的引擎,提供专为 OLAP 设计的开源分析数据存储系统,它的设计意图是在面对代码部署、机器故障以及其他产品系统遇到不测时能保持100%正常运行。它也可以用于后台用例,但设计决策明确定位线上服务。

数据流:

集群架构:

https://yqfile.alicdn.com/0cd0f0fdf08d51cca746c2313536c46baf0d23d2.png" >

主要特性:

  • 为分析而设计——Druid是为OLAP工作流的探索性分析而构建。它支持各种filter、aggregator和查询类型,并为添加新功能提供了一个框架。用户已经利用Druid的基础设施开发了高级K查询和直方图功能。
  • 交互式查询——Druid的低延迟数据摄取架构允许事件在它们创建后毫秒内查询,因为Druid的查询延时通过只读取和扫描优必要的元素被优化。Aggregate和 filter没有坐等结果。
  • 高可用性——Druid是用来支持需要一直在线的SaaS的实现。你的数据在系统更新时依然可用、可查询。规模的扩大和缩小不会造成数据丢失。
  • 可伸缩——现有的Druid部署每天处理数十亿事件和TB级数据。Druid被设计成PB级别

文章转载自 开源中国社区 [http://www.oschina.net]

时间: 2024-09-17 03:47:59

Druid —— PB 级的 OLAP 数据实时查询引擎的相关文章

PB级分布式大数据的处理和分析应用

文章讲的是PB级分布式大数据的处理和分析应用,对于大数据,串行的处理方式难以满足人们的要求,现在主要采用并行计算方式.现有的并行计算可以分为两种: ·细粒度的并行计算.这里细粒度主要是指指令或进程级别,由于GPU比CPU拥有更强的并行处理能力,人们将一些任务交给GPU并行处理,一些GPU制造商也推出了方便程序员使用的编程模型,如NVIDIA推出的CUDA等. ·粗粒度的并行计算.这里粗粒度指的是任务级别,人们将工作分布到不同机器中执行,最近流行的网格计算.分布式计算都属于粗粒度级别. 由于现有G

红象云腾发布新一代PB级高速大数据平台产品

ZD至顶网服务器频道 03月23日 新闻消息:在3月19日举办的China Hadoop Summit(中国Hadoop技术峰会)上,中国Hadoop大数据厂商红象云腾与OpenPOWER基金会共同发布红象云腾的新一代大数据产品,帮助企业高速处理PB规模数据.  此次发布的两款新产品中,"红象数据高铁-CRH4"的RedHadoop Enterprise CRH4 For POWER版软件,是全球第一个支持OpenPOWER服务器的Hadoop商业版本.同时发布的RedHadoop E

PB中如何实现数据模糊查询

本文主要介绍如何在pb中根据数据窗口中的字段对数据窗口进行模糊查询.本系统的代码示例采用Power Builder6.5进行演示. 代码及设计: 1. 新建一个窗口,命名为w_query.在窗口中放入一个数据窗口控件,命名为dw_master.在dw_master中放入一个数据窗口:放置一个按钮,命名为cb_query.见下图: 2. 新建一个结构(structure)命名为str_result_column,其参数如下: 3. 在dw_master增加两个用户事件,命名为ue_action_q

eBay开源新数据库技术Kylin,支持TB到PB级数据量

[编者按]eBay开源了一种名为 Kylin 的数据库技术,eBay在周三的一篇博客上分享了Kylin 的诸多细节,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量,Kylin旨在减少Hadoop在10亿行以上数据级别的情况下的查询延迟.这些都表明eBay在使用Hadoop技术等方面取得了不俗的成绩. 以下为译文: 在线拍卖网站eBay开源了一种名为 Kylin 的数据库技术,该公司宣称这项技术能够在Hadoop上支持PB级数据存储的快速查询.eBay

sql查询两级分类下数据

问题描述 sql查询两级分类下数据 sql 怎么用select查询两级分类下的所有的数据...... 解决方案 有key对应吗,如果有可以用join去连接查询 解决方案二: SQL 查询某属性分类数据和SQL distinct 分类查询----------------------

linq根据传入数据集合查询对应子级数据

工作中经常用到的linq根据传入数据集合查询对应子级数据,整理共享,希望大家都能用得上,代码中doublesArray 为父节点对应ID数据集合,再根据ID数据集合查询全部子级数据. //获取缓存数据 object obj = Caching.GetCache(CacheKey + UModel.RoleId); if (obj != null)//判读缓存数据是否null { SysFunList = (DataSet)obj; } else { string strSql = "select

Elasticsearch——利用Parent-Child关系解决大数据场景下的实时查询

表与表之间的关联基本上是所有业务系统都存在的,RDBMS通过外键实现,MongoDB通过嵌入式子文档解决,那么Elasticsearch怎么解决这个问题呢?答案就是Parent-Child关联(参考文档) 业务场景 有一个广告的分发系统,为了更精准的做广告的推送,除了自身积累的数据以外,还会从其他合作方通过数据交换(当然这些都是脱敏的数据)的方式获取更多用户行为数据,例如从音乐网站获取听的音乐列表.从购物网站获取最近的购物类别.从书评网站获取最近浏览的图书等等.这些来自于外部的数据,有以下几个问

RDS PostgreSQL\HDB PG 毫秒级海量时空数据透视 典型案例分享

标签 PostgreSQL , GIS , 时空数据 , 数据透视 , bitmapAnd , bitmapOr , multi-index , 分区 , brin , geohash cluster 背景 随着移动终端的普及,现在有越来越多的业务数据会包含空间数据,例如手机用户的FEED信息.物联网.车联网.气象传感器的数据.动物的溯源数据,一系列跟踪数据. 这些数据具备这几个维度的属性: 1.空间 2.时间 3.业务属性,例如温度.湿度.消费额.油耗.等. 数据透视是企业BI.分析师.运营非

Facebook如何实现PB级数据库自动化备份

文章讲的是Facebook如何实现PB级数据库自动化备份,Facebook的MySQL数据库,是世界上最庞大的MySQL数据库之一,在不同地区有数千个数据库服务器.因此,备份对他们来说是个巨大的挑战.为了解决这个问题,他们构建了一个高度自动化.非常有效的备份系统,每周移动多个PB的数据.Facebook数据团队的Eric Barrett通过一篇文章分享了他们的做法. 他们没有采用大量前载(front-loaded)测试,而是强调快速检测失败,并且进行快速.自动化纠正.部署几百个数据库服务器,只需