Apache® CarbonData™ 成 Apache 软件基金会顶级项目

Apache软件基金会正式宣布CarbonData从Apache孵化器毕业,正式成为Apache顶级项目(TLP),这也是首个由中国公司发起并捐献给Apache基金会的开源项目。

Apache CarbonData是由华为开源贡献的大数据高效存储格式解决方案。针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“交互式分析、详单查询、任意维度组合的过滤查询等”多种大数据应用场景,并通过丰富的索引技术、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应,与大数据生态Apache Hadoop、Apache Spark等无缝集成。

随着数据与日俱增,业务驱动下的数据分析灵活性要求越来越高,不同场景的数据分业务系统而构建,导致冗余严重,缺乏高效、统一的融合数仓,阻碍企业快速转型。尤其是大企业,在建设第二数据平面的大数据平台典型诉求表现如下:

数据统一存储:为了节约成本,企业希望一份数据支持多种使用场景;减少数据孤岛和冗余,通过数据共享产生更大价值。

高效:数据分析要求越来越高效、实时。

易集成:提供标准接口,新的大数据方案与企业已采购的工具和IT系统要能无缝集成,支撑老业务快速迁移。

大集群:区别于以往的单机系统,企业客户希望新的大数据平台能应对日益增多的数据,随时可以通过增加资源的方式横向扩展,无极扩容。

开放生态:通过开源开放,让更多的客户和合作伙伴的数据连接在一起,发挥更大的价值。

华为针对上述典型诉求,从2013年开始调研分析业界大数据方案,发现每种技术都只能解决某种场景的诉求,不能同时满足上述的所有诉求,如:并行数据库技术不能有效与Hadoop生态集成,数据不能统一共享存储;搜索类技术提升了性能,但是数据膨胀大,不支持标准SQL、不能兼容老的业务,这促使了华为着手开发CarbonData项目。整个大数据时代的开启,可以说是源自于Google的MapReduce论文,他引发了Hadoop开源项目以及后续一系列的生态发展。他的“伟大”之处在于计算和存储解耦的架构,使企业的部分业务(主要是批处理)从传统的垂直方案中解放出来,计算和存储可以按需扩展极大提升了业务发展的敏捷性,让众多企业普及了这一计算模式,从中受益。CarbonData借鉴了这一理念,存储和计算逻辑上分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析。

Apache CarbonData主要特点包括:

列式存储:高效的列式数据组织,区别于行存,可以实现列裁剪和过滤下压,使OLAP查询性能更高。同时,CarbonData针对明细数据查询实现了深度优化,在需要返回所有列的场景下性能优于其他列存方案。

丰富的索引支持:支持全局多维索引、文件索引、Min/Max、倒排索引等多种索引技术,从表级,文件级,列级等多个层级逐级快速定位数据,避免SQL-on-Hadoop引擎常见的“暴力扫描“,从而大幅提升性能,实现十年数据秒级响应, 三百维字段任意组合查询。

全局字典编码:除了常见的Delta、RLE、BitPacking等编码外,CarbonData应用了全局字典编码来实现免解码的计算,计算框架可以直接使用经过编码的数据来做聚合,排序等计算,这对需要做跨节点数据交换的业务来说性能提升非常明显。

自适应类型转换:CarbonData针对分析型应用中大量使用的数值类型(Double/Decimal/Numeric/BigInt)实现存储内数据类型转换,配合列式数据压缩,使得压缩非常高效,数据压缩率基于应用场景不同一般压缩比在2到8之间。

标准SQL和API:在SparkSQL基础上,支持标准SQL99/2003;支持数据批量更新、删除,适用于OLAP场景下数据的周期性刷新,例如拉链表更新、维表数据同步。提供JDBC/ODBC连接,支持与BI工具无缝对接;兼容Spark DataFrame/DataSet,支持复杂分析应用。

数据生态集成:支持与Hadoop、Spark等大数据生态系统集成,支持和商业BI工具无缝对接。既满足传统数仓、数据集市、BI应用要求,也提供大数据生态丰富多样的API支持,覆盖从GB级到EB级应用。

开源开放: CarbonData于2016年6月全票通过进入Apache孵化器,不到一年时间,毕业成为Apache顶级项目,这标志着CarbonData项目完成依照Apache way开源方式运作,社区多样化,贡献来自华为、Intel、Talend、eBay、Inmobi、Knoldus、Habib Bank、上汽、携程、丁香园、阿里、美团、乐视、滴滴等公司资深架构师和开发人员。

Apache CarbonData致力于推动大数据开源技术的持续发展,以一份数据同时满足多种业务场景诉求,打造高效、开放、完整生态的大数据新融合数仓存储方案。

本文来自开源中国社区 [http://www.oschina.net]

时间: 2024-10-03 11:11:44

Apache® CarbonData™ 成 Apache 软件基金会顶级项目的相关文章

RocketMQ成为Apache软件基金会顶级开源项目

9月25日,Apache软件基金会官方宣布,阿里巴巴捐赠给Apache社区的开源项目RocketMQ从Apache社区正式毕业,成为Apache顶级项目(TLP).自此,Apache RocketMQ成为国内首个非Hadoop生态体系.国内首个互联网中间件的Apache顶级项目. "从孵化器中毕业是一个重要的里程碑" Apache RocketMQ孵化器导师.SAP Hybris研发总监.Apache ActiveMQ副主席Bruce Snyder先生对此评价道,"这是对Ro

喜讯!RocketMQ成为Apache软件基金会顶级开源项目

9月25日,Apache软件基金会官方宣布,阿里巴巴捐赠给Apache社区的开源项目RocketMQ从Apache社区正式毕业,成为Apache顶级项目(TLP).自此,Apache RocketMQ成为国内首个非Hadoop生态体系.国内首个互联网中间件的Apache顶级项目. "从孵化器中毕业是一个重要的里程碑," Apache RocketMQ孵化器导师.SAP Hybris研发总监.Apache ActiveMQ副主席Bruce Snyder对此评价道,"这是对Roc

Apache Drill 成为 Apache 基金会顶级项目

Apache 基金会今天宣布 Apache Drill 成为基金会的顶级项目.项目新的首页是:http://drill.apache.org/ 为了帮助企业用户寻找更为有效.加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为"Drill"的开源项目.Apache Drill 实现了 Google's Dremel. 该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速).而"Drill&qu

Apache Spark 成为 Apache 基金会顶级项目

Apache 基金会宣布旗下的 Apache Spark 项目成为基金会的顶级项目,拥有顶级域名 http://spark.apache.org/ 基金会称 Spark 的用户包括:阿里巴巴.Cloudera.Databricks.IBM.英特尔和雅虎. Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,

Olingo 成为 Apache 基金会顶级项目

Apache 基金会宣布 Olingo 项目结束孵化阶段,成为基金会的顶级项目.该项目新的网址是 http://olingo.apache.org/ Apache Olingo 是个 Java 库,用来实现 Open Data Protocol (OData). Apache Olingo 包括服务客户端和 OData 服务器方面.当前支持 OData 2.0 ,未来会支持 OData 4.0.Apache Olingo 扩展部分支持 JPA 持久性或者注释 bean 类. The Open D

流处理框架 Samza 成为 Apache 基金会顶级项目

Samza 是由 LinkedIn 开源的一项技术,它是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm.不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统. 文章转载自 开源中国社区 [http://www.oschina.net]

Apache Metron晋升顶级项目

Hortonworks和Apache宣布Metron正式晋升为顶级项目.Metron是一种多功能的安全遥测数据捕获.流分析和威胁响应平台,代表了安全数据平台的最新发展水平.该项目最早可溯源至Cisco的开源大数据系统安全框架项目OpenSOC.Metron提供的功能包括:日志的聚合.对网络包全面捕获的索引和存储.高级行为分析及数据浓缩,并可以将当前的威胁情报信息应用到安全遥测中.Metron在同一平台中集成实现了所有的这些功能.Metron从概念上可划分为四个组件:数据捕获与摄取.实时数据处理.

Apache 基金会宣布 Apache Kylin 成为顶级项目

Apache Kylin 是可扩展到PB规模的开源分布式大数据分析引擎,已被应用在eBay,Exponential, 京东,美团,明略数据,网易及其他公司. 马里兰州 Forest Hill - 2015年12月8日 -由超过350个开源项目及创新计划,全部由开发志愿者,治理志愿者及孵化志愿者组成的 Apache软件基金会(ASF),今天宣布Apache Kylin已经从Apache孵化器项目毕业,正式升级成为顶级项目(TLP),这标志着该项目的社区和产品依照ASF精英管理的流程和原则顺利运作.

Apache 基金会宣布 Apache Eagle 成为顶级项目

2017年1月10日, 由超过350个开源项目及创新计划,全部由开发志愿者,治理志愿者及孵化志愿者组成的Apache软件基金会(ASF),宣布Apache Eagle已经从Apache孵化器项目毕业,正式升级成为顶级项目(TLP),这标志着该项目的社区和产品依照ASF精英管理的流程和原则顺利运作. Apache Eagle是一个开源监视和警报解决方案,用于智能实时地识别大数据平台上的安全和性能问题,例如Apache Hadoop,Apache Spark等. "我们很自豪Eagle能顺利度过孵化