Databricks:打造数据国度的“金砖四国”

Databricks,一个并不算熟悉的名字,是大数据国度的后起之星。成立不够一年,但却阵容强大,创始人都是开源圈子里面的重要级人物,值得关注。从公司名Databricks似乎就能看出一些深意——data(数据)+bricks(金砖四国)。不知道,在数据国度里Databricks是否具有“金砖四国”的发展前景呢?

可以先从公司的创始背景谈起,打开Databricks官网,“We're working to revolutionize what you can do with big data“映入眼帘。其格外简约不能再简约,可以用清新的字眼来描述网站来看,这一行字相信解读为公司创立的最初想法和终极目标似乎不为过。

Databricks是由Apache Spark的创始人建立的,成立于2013年年中,公司重于研发尖端系统,以从大数据中获取价值。Databricks认为大数据仍存在很大部分尚未开发的机遇,这也就是他们所要做的,通过改革来寻找到底大数据可以帮助人们做些什么。

 

加州大学伯克利分校,摄于2013年

也许正是基于此背景,Databricks目前的阵容对于大数据领域来说有不少亮点。团队人员均是开源圈子内的重量级人物,他们都热衷于“增值开源软件”:任职CEO 的Ion Stoica是UC Berkeley计算机教授、AMPLab联合创始人,同时也是Conviva公司的联合创始人(位于后排右三);CTO Matei Zaharia 是Apache Spark的创作者,同时也是麻省理工学院计算机科学系的助理教授(位于后排左三);UC Berkeley计算机科学教授Scott Shenker。同时也是知名SDN公司Nicira的联合创始人及前CEO(位于后排右二);值得一提的是联合创始人辛湜先生(英文名Reynold Xin,新浪微博为@hashjoin)还是一名中国人,无疑会带给Databricks公司多一分的中国色彩,他同时也是Spark的核心成员(位于前排左二)。

对于这家新兴的大数据公司,最好奇的就是他所拥有的大数据产品到底是什么呢?可以这么说,如果将Databricks公司的产品说成是Spark社区,其实不如说Databricks主要服务于Spark。这一点我们从其团队的主要成员不难看出。按照辛湜先生在媒体访问中所说,Databricks的目标是从Spark开始,构建一系列更强大、更简单的大数据分析处理工具盒平台。

不错,从其对外公布的官方博客中,这一点也得到了印证。3月18日宣布Databricks“认证Spark”项目主要用于那些建立在Apache Spark平台顶部上的应用,其实就是确保被认证的应用与许多Spark发行的商业支持一起使用。Databricks CEO Ion Stoica表示在此次项目中,Databricks将处理与认证的Apache在各商业版本中的兼容性任务,并能够很快确定其初始设置的分派是否满足此条件。

这里,可以顺便一起回顾下Apache Spark,它是一个开源数据处理引擎,用于构建高效率的、易用的和复杂分析的Hadoop数据,最初是成立于2009年的加州大学伯克利分校(UC Berkeley)AMPLab,正式开源是在2010年。正如Apache Spark做到100%的开源,Databricks也依旧遵循此规则。目前Spark已经发展成为大数据领域最大的开发者社区,有超过来自30个组织的100多个贡献者。不得不说注入如此基因的Databricks,绝对会更“亲民”。

迄今为止,这家极尽低调的公司Databricks,可以用神秘的大数据公司来形容。但在其成立不到一年的时间内,还是获得了Andreessen Horowitz 1400万美元投资。Andreessen Horowitz曾先后投资了Groupon、Skype、Zynga、Foursquare和Facebook等著名的互联网公司,外媒BusinessInsider曾将他誉为硅谷最具权威的50个天使投资人之一。

同时,Databricks还有个同样在大数据领域不容小觑的合作伙伴。从去年(2013年)Hadoop World会议上,就爆出Cloudera决定提供Apache Spark的全企业级支持,这也就意味着Databricks将成为Cloudera的第一个合作伙伴。Cloudera最近也是新闻不断,刚斩获了1.6亿美元 的融资,上市消息不断传出。

合作方式主要是Databricks帮助Cloudera提供支持,虽然目前Databricks仅以类似OEM的关系获益,该协议仅限于扩展Apache Spark,不会发布任何商业版本的Databricks。但正如Cloudera公司联合创始人兼CTO Amr Awadallah所说,此次合作将是作为Cloudera所有感兴趣的客户创新的枢纽,无疑这将为这家新兴创业公司赢得业界内的信誉。

此外,Databricks对于中国市场也很是看重,从主要创始人多次参加相关活动足以看出。近期就有一个机会,期待的伙伴们或许可以亲临现场。本月19日Databricks受邀参加“2014中国Spark技术峰会”(Spark Summit China 2014),届时期待Databricks公司成员Andy Konwinski的发言。

温馨提示:想要快速了解Databricks的网友,可火速点击http://stor-age.zdnet.com.cn/special/big_data_Databricks

原文发布时间为:2014年04月08日

本文作者:林利

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-10-31 12:23:23

Databricks:打造数据国度的“金砖四国”的相关文章

Oracle:将与Sun打造数据中心一站式服务

去年,EMC与Cisco.VMware成立VCE联盟,旨在帮助用户打造数据中心一站式产品与服务,接着3Com高层也表示将与惠普一起打造数据中心一站式产品,随后戴尔发布其数据中心战略,NetApp与Cisco.VMware成立类似VCE联盟的组织--数据中心一站式产品与服务似乎成为大势所趋.近日Oracle也宣布,将作为一家一站式系统厂商提供预封装来自于Sun的操作系统.虚拟机.服务器和存储技术的硬件系统和软件系统的新战略. Exadata Database Machine Version 2是由

打造"数据供应链"百分点发布大数据战略

文章讲的是打造"数据供应链"百分点发布大数据战略,大数据时代的来临,首当其冲的影响的就是电子商务行业,如何将电子商务海量数据转化为价值是很多大数据分析公司一直在探索的问题.通过对客户行为的分析,来了解顾客的偏好,从而进行有目的的推销和广告投放,降低营销成本,提升销售额,这是如今电子商务行业一直在迫切追求的营销模式. 目前,作为国内领先的大数据技术公司百分点针对大数据领域发布了全新的战略,从提供大数据技术进入到大数据管理与应用领域.同时宣布在B轮融资中获得东方星空创投和IDG资本联合投资

利用大数据帮助农户优化农场配置,旧金山创业公司Ceres Imaging想打造“数据即服务”的2C服务

摘要: 大数据真的能做很多事,甚至包括介入一些看起来坚若磐石的传统领域,比如农业.农业自有其特殊性,产品生产具有固定的周期性限制,并且在产出过程中会有各种各样的因素干扰, 大数据真的能做很多事,甚至包括介入一些看起来坚若磐石的传统领域,比如农业.农业自有其特殊性,产品生产具有固定的周期性限制,并且在产出过程中会有各种各样的因素干扰,大到天气水文,小到仓储物流.然农业却实为所有人类安家立业之本,在互联网的浪潮一波接一波的席卷世界的时候,农业也到了需要被改变的时候了. 试图优化农场的旧金山初创公司C

国家统计局打造数据“统计云”

  统计数据被喻为国家"战略金矿",而中国国家数据统计由于采用了国家.省.地.县.乡.村六级系统,在相当长的一段时间内无法实现全国统一的统计平台.近年来,统计局着力通过IBM的小型机打造核心业务系统建设,一个覆盖全国.随需扩展.统一业务的"统计云"正初现规模. 据国家统计局数据管理中心主任许剑毅介绍,国家统计局的应用系统是一个庞大的系统.首先,处理信息量很大,可以说是海量数据,除了常规收集社会经济发展信息以外,还有一些大型的国情国力调查.其次,统计数据的时效性很强,

陈金培: 阿里云打造数据为中心的云计算

杭州西湖国际大厦,阿里云公司总部,阿里云云计算公司业务总经理陈金培坐在记者面前,回望阿里云2012年的云计算实践,回望整个中国云计算发展的轨迹. 对于2012年阿里云的整体表现,陈金培说可以打80分."80分是因为有很多公司已经把业务放在阿里云平台上了,没得到的20分是因为我们的产品还未做到极致,服务体系也不是很完善,这将是2013年我们努力的方向."陈金培表示,"阿里云的目标是打造互联网数据分享第一平台,成为以数据为中心的云计算服务公司,将云计算变成真正意义上的公共服务.&

浅谈如何打造数据资料式软文及效果

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 软文推广目前在互联网上被认为是最佳的推广模式,这种方式能够通过较少的投入获得较大的回报,有的人就说我通过发帖那还不用花钱,可是发帖却花掉了你大量的时间,这对于你来说就是投资,可是软文却能够为你节省很多时间用来运营,相对而言还是软文的投资成本较少!这是为什么很多站长青睐软文的一个重要原因!可是软文如果写的不好,或者真实感不强,那么这样的软文就不

善用列存储索引:打造数据的高速公路

几个月前,我们带您了解了微软下一代数据库平台SQL Server Denali的列存储索引功能.针对数据仓库级别的表,它能够在很大程度上改善查询性能.在最新的社区预览版CTP3中,我们有幸接触到列存储索引的完整功能,那么在本文中,我们就将深入了解一下其中的奥秘. 同我们熟悉的"行存储"格式不一样,新的架构中每一列索引中的数据都是单独分组并存放的,而列数据是可以被压缩的.此外,当DBA在列存储索引上运行一个查询的时候,SQL Server只读取查询中使用到的列.这样的结果就是:更少的磁盘

[案例]信息巨头Carfax如何打造数据产品

◆ ◆ ◆ 消灭"柠檬车" 美国经济学家乔治·阿克尔洛夫1970年发表的一篇著名的学术论文<柠檬市场:质量不确定性和市场机制>.阿克尔洛夫在这篇论文中,把二手车市场作为在买卖双方掌握的信息(数据)不对称条件下,导致二手车质量不确定性的一个经典经济学研究案例."柠檬车"通常用来形容有人买了一辆二手车后才发现其中有缺陷,让人觉得像吃了柠檬后那种酸酸涩涩的难受的感觉.为此,阿克尔洛夫与迈克尔·斯彭斯和约瑟夫·斯蒂格利茨一起分享了2001年的诺贝尔经济学奖. C

台达为俄罗斯数字企业协会实验示范中心成功打造数据中心基础建设解决方

凭借着诸多数据机房和UPS项目的成功实施,全球电源管理与散热解决方案的领导厂商----台达所提供的数据中心基础设施解决方案,近年来在俄罗斯获得了良好声誉,成功助力机场.能源.高等学府.全球知名电子企业等大型机构新建和改造数据中心,实现可靠动力保障. 近日,台达更为俄罗斯数字企业协会实验示范中心提供了包括UltronHPH系列UPS.机柜式精密空调.模块化机柜以及电源分配器(PDU)等产品的数据中心基础设施解决方案.作为与俄罗斯国防公司合作进行测试与试验项目的平台,俄罗斯数字企业协会实验示范中心对