LinkedIn开源大数据计算引擎 Cubert,并为此创建新的语言

【编者按】Linkedin周二宣布开源其大数据计算引擎Cubert,其名字来源于鲁比克方块(Rubik’s Cube),为了让开发人员更容易使用Cubert,而无需做任何形式的自定义编码,Linkedin为此开发了新的编程语言Cubert Script。

以下为译文:

Linkedin周二宣布开源其大数据计算引擎Cubert,这个框架可以使用一种专门的算法来组织数据,让其在没有超系统负荷和浪费CPU资源的情况下,更轻松的运行查询。

Cubert,其名字来源于鲁比克方块(Rubik’s Cube),据悉,它可以作为一个Java应用程序,从而很容易被工程师接受,它包含一个“类似script用户界面”,因此工程师可以在运行查询时,使用诸如MeshJoin 和 Cube算法在组织数据上节省系统资源。

从 LinkedIn博客我们知道:

现存引擎Apache Pig、Hive 以及Shark提供一个合乎逻辑的声明性语言,然后被翻译成一个实物计划。这个计划执行分布式引擎(Map-Reduce、Tez 或者Spark),在此物理操作者针对数据分区执行。最后,数据分区将由HDFS提供的文件系统抽象管理。

Cubert 架构

Cubert运行在Hadoop之上,新的框架可以抽象所有的存储到数据块,这将除了让操作者能帮助更好的管理数据之外,还能让其更易于运行它的资源节约算法,例如,COMBINE操作者可以合并多个数据块在一起,PIVOT操作者可以创建数据块的子集。

LinkedIn也创建了一门名为CubertScript的新语言,其目的是使开发人员更容易使用Cubert,而无需做任何形式的自定义编码。

LinkedIn现在使用Cubert作为一个关键组件来处理数据。当Kafka实时消息传递系统从LinkedIn的众多应用程序中获取所有信息并将其发送到Hadoop,Cubert然后处理这些数据,以确保它不占用系统资源并帮助工程师解决“各种各样的统计、分析和图形计算问题。”

被处理后,数据流向LinkedIn的Pinot实时数据分析系统,然后该公司分析其众多数据跟踪特性,如最近谁查看了用户的资料。

LinkedIn Data Pipeline

现在Cubert已经和LinkedIn的基础设施连接,公司不再担心Hadoop脚本终结“在集群上占用太多资源”或浪费时间去做他们为此应该做的。

原文链接: LinkedIn open sources Cubert, a big data computation engine that saves CPU resources (责编/魏伟)

CSDN诚邀您参加中国大数据有奖大调查活动,只需回答23个问题就有机会获得最高价值2700元的大奖(共10个), 速度参与进来吧!

第八届中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年,历经七届沉淀,“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议,你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼项目管理委员会成员)、Yi Liu,以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势,还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。 门票限时折扣中, 预购从速。

免费订阅“CSDN大数据”微信公众号,实时了解最新的大数据进展!

CSDN大数据,专注大数据资讯、技术和经验的分享和讨论,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点,大数据技术,大数据平台,大数据实践,大数据产业资讯等服务。

时间: 2024-10-27 00:46:02

LinkedIn开源大数据计算引擎 Cubert,并为此创建新的语言的相关文章

蒋步星:轻量级大数据计算引擎

近几年,大数据非常热门,大数据计算的方案也较多,目前,大数据计算机平台有很多,但却越来越沉重,主要是由于这三个方面的原因: 并不是任何事物都需要沉重的大数据平台,许多还是需要轻量级计算. 轻量级计算需求 大数据的技术本质是高性能 提高性能的需求无处不在 不总是有那么大的数据量 低延迟即时响应业务数据量并不 不总是适合部署大数据平台 即时查询常常有被集成需求 临时性数据处理来不及建 设 大数据平台 不总是可以扩容硬件(内存) 大数据开发难度大 大数据平台对SQL查询关注过多 性能比拼的主要阵地 优

开源大数据查询分析引擎现状

引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS.Map-Reduce. Bigtable被称为云计算底层技术三大基石.GFS.Map-Reduce技术直接支持了Apache Hadoop项目的诞生.Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位.FaceBook的Hive项 目是建立在Hadoop上的数据仓库基础构架,提供了一

Facebook 正式开源其大数据查询引擎 Presto

Facebook 正式宣布开源 Presto -- 数据查询引擎,可对250PB以上的数据进行快速地交互式分析.该项目始于 2012 年秋季开始开发,目前该项目已经在超过 1000 名 http://www.aliyun.com/zixun/aggregation/1560.html">Facebook 雇员中使用,运行超过 30000 个查询,每日数据在 1PB 级别.Facebook 称 Presto 的性能比诸如 Hive 和 Map*Reduce 要好上 10 倍有多. Prest

【Spark Summit East 2017】使用开源大数据软件构建实时防欺诈引擎

本讲义出自Kees Jan de Vries在Spark Summit East 2017上的演讲,骗子总试图使用盗取来的信用卡购买商品,预定机票和酒店等,这伤害了持卡人的信任和供应商在世界各地的业务,本讲义介绍了使用开源大数据软件:Spark, Spark ML, H2O, Hive, Esper等构建的实时防欺诈引擎,并介绍了面对的挑战.

浅谈开源大数据平台的演变

浅谈开源大数据平台的演变 2015-04-16 腾讯大数据一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现.虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用.降低使用门槛.带动业界大规模部署的就是Hadoop.得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一.Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗:小部分离线存储和计算

开源大数据技术专场(上午):Spark、HBase、JStorm应用与实践

16日上午9点,2016云栖大会"开源大数据技术专场" (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技术专家天梧.阿里巴巴中间件技术部资深技术专家纪君祥将给大家带来Hadoop.Spark.HBase.JStorm Turbo等内容. 无谓:Hadoop过去现在未来,从阿里云梯到E-MapReduce 阿里云高级技术专家 无谓  从开辟大数据先河至现在,风雨十年,Hadoop已成为企业的通

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数

开源大数据周刊-第37期

阿里云E-MapReduce动态 E-MapReduce 2.3.1镜像主版本发布基础镜像CentOS 6.5内核版本升级到2.6.32-642:并支持job failover 资讯 2017年数据领域的八大发展趋势 在2017年数据社区将会有大量的机会出现,并伴随一些危机性的挑战,下面是对上述问题的纵观. 大数据统一编程模型Apache Beam成为顶级开源项目 美国时间 1 月 10 日,Apache 软件基金会对外宣布,万众期待的Apache Beam在经历了近一年的孵化之后终于毕业.这一

2015 Bossie评选:最佳开源大数据工具

Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark.Storm都名列榜单之上. InfoWorld在分布式数据处理.流式数据分析.机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具. 1. Spark 在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者