Pinot —— LinkedIn 开源 OLAP 存储和分析系统

Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源(包括 Hadoop 和各类文件)和在线数据源(如 Kafka)中攫取数据进行分析。Pinot 被设计是可以进行水平扩展的。

https://yqfile.alicdn.com/286f264b08e6b282ff971e94e9f881e3c2ccdacb.png" >

文章转载自 开源中国社区 [http://www.oschina.net]

时间: 2024-09-26 05:02:04

Pinot —— LinkedIn 开源 OLAP 存储和分析系统的相关文章

Databus:LinkedIn开源低延时变化数据捕获的系统

2月26日,LinkedIn开源了其低延时变化数据捕获系统Databus,该系统可以在MySQL以及Oracle数据源上捕获数据,不过当下LinkedIn只开源了Oracle上的连接器.Databus作为LinkedIn生态系统中的一致性保障组件,是具有十分高保障的一项产品,就算在低延时的情况下仍然具有高有效性;而其最大的特点莫过于无限制lookback能力及丰富的subscription功能. 以下为LinkedIn上Databus简述译文: 何为Databus LinkedIn拥有一个针对数

LinkedIn开源实时数据处理系统Samza

近日,LinkedIn开源了一项技术--Samza,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm.不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统. Storm和Samza极其相似,就像LinkedIn的Chris Riccomini在博客中阐述的那样:"[Samza]可以帮助你构建应用,处理消息队列--更新数据库.计数以及其他的聚合.转换消息等等."而这些其实都是很经典的Storm应用,只不过迁

百亿级全网舆情分析系统存储设计

前言 在时下互联网信息的浪潮下,信息的传播速度远超我们的想象.微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评价,可能会产生数以万计的转发,关注,点赞.如果是一些非理性负面的评论会激发人们的负面感,甚至影响到消费者对企业品牌的认同,如果不能及时的采取正确的应对措施,会造成难以估计的损失.所以我们需要一个高效的全网舆情分析系统,帮助我们实时的观测舆情. 这个全网舆情分析系统,可以实现百亿条网页数据的存储.实时新增网页的抓取和存储并能对新增网页做实时的元数据提取.有了

LinkedIn 开源成功的秘密

开源就是不断的奉献自己,除非它将你的业务先毁掉.但是,有太多的人先入为主,将各种偏见灌输给你,诸如:开源有"毒",开源根本无法赚钱之类的.这个时候,你只需要默默的,转身看看那些成功的利用开源的公司即可. 互联网的巨头,即使如 LinkenIn,也是开源的"专家",让我们先过一遍 LinkedIn 的 GitHub 账户, 竟然是一家发布了 75 个开源项目的公司.而且其中有一些已经是获得巨大成功的项目了,有众多的开发者和公司参与开发和使用.是的,没错,这就是 Lin

牛刀初试:智能分析系统与 Netezza 性能比拼

前言 根据市场调研分析机构 Gartner 发布的< Data Warehousing Trends for the CIO, 2011-2012 > 1, Appliance(一体机)技术成为数据仓库 .领域未来市场热点之一.IBM 智能分析系统(Smart Analytics Systems)和 IBM Netezza 作为 IBM 主推的两大重量级 Appliance,吸引了众多市场目光. 本文首先对两大 Appliance 的架构特点进行简单的描述,然后以基准测试 TPC-H 为数据源

开源大数据查询分析引擎现状

引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS.Map-Reduce. Bigtable被称为云计算底层技术三大基石.GFS.Map-Reduce技术直接支持了Apache Hadoop项目的诞生.Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位.FaceBook的Hive项 目是建立在Hadoop上的数据仓库基础构架,提供了一

LinkedIn张溪梦的分析哲学:大数据要做小做快

在很多人的印象里,职业社交网站LinkedIn是一家很另类而神秘的社交网站,但它的价值逐渐让世人侧目.在日前举办的2013 Teradata大数据峰会上, LinkedIn商业分析部总监张溪梦(Simon Zhang)在接受IT专家网记者的专访,介绍了LinkedIn如何通过对数据分析技术的利用创造企业的价值. LinkedIn的目标,是联结世界上所有的专业人士,让他们能够更有效率,更成功.目前,LinkedIn在世界范围内的用户已增长到2亿多,86%的财富100强企业正在使用LinkedIn的

实时股票分析系统的架构与算法

[编者的话]如果能在一台服务器上应用人工智能和机器学习算法处理每天的股票交易,而自己则在夏威夷的海滩上享受生活,那将是多么惬意呀.虽然股票 价格的变化受多种因素的影响,世上也没有免费的午餐,但是有些公司依然能够借助于开源的机器学习算法和数据分析平台得到"更好.更健康.更便宜的午餐". 本文搜集并整理了一些如何实现实时股票分析系统的资料,从架构和算法两个层面给出了一种可行的方案. 虽然股票交易市场一直在持续地变化,经济力量.新产品.竞争.全球性的事件.法规.甚至是Tweet都 有可能引起

Hadoop连载系列之六:数据收集分析系统Chukwa

系列几篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建.Zookeeper集群搭建.HBase分布式部署等.当Hadoop集群的数量达到1000+时,集群自身的信息将会大量增加.Apache开发出一个开源的数据收集和分析系统-Chukwa来处理Hadoop集群的数据.Chukwa有几个非常吸引人的特点:它架构清晰,部署简单;收集的数据类型广泛,具有很强的扩展性;与 Hadoop 无缝集成,能完成海量数据的收集与整理. 1 Chukwa简介 ----------------