MaxCompute 2.0 生态开放之路及最新发展

文章转自yizhuo

MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理系统。长久以来,这套阿里自研的系统为阿里内部服务,有自己的类型系统,配套工具以及 SDK 和编程接口。但是随着公共领域对 MaxCompute 的需求越来越强烈,我们也在尽自己所能,使 MaxCompute 能够兼容现有生态,提高使用体验以及最重要的,保护用户投资。

用户接口层的基本简介

首先整体介绍一下 MaxCompute 的用户接口层。

MaxCompute 从研发的第一天起就被设计统一由 Restful API 提供服务。在 Restful API 之上,我们各种语言的 SDK。由 SDK 编写形成的各种工具、驱动等等构成了 MaxCompute 的用户接口层,即外围生态。

协议兼容:JDBC 和 Hive Proxy

JDBC 是 MaxCompute 第一次提供标准化协议的尝试。通过 JDBC,我们可以顺利对接如 Pentaho 这样的 BI 工具,如 TalentD 这样的 ETL 工具以及 SQL Workbench 这样的传统数据库管理工具(图为 ODPS JDBC on Zeppelin)。

ODBC 也是重要的兼容协议之一。为此我们正在研发 Hive Proxy,直接从 thrift 协议层进行兼容,以期可以提供包括 ODBC 在内的 Hive 整个生态的接入能力。Hive Proxy 部署在客户端,将 Hive 的 thrift 请求转换成 MaxCompute 的 Restful API 请求,可以用来直接对接诸如 Tableau、Qlik 这样不直接支持 JDBC 的 BI 工具,或者 HPL 这样的 Hive 组件。

目前 Hive Proxy 正在紧密的开发测试阶段,相信不久就可以和各位见面。

编程接口兼容:RODPS 和 PyODPS

MaxCompute 的强项是大规模数据分析,这是很多数据分析师每天的主要工作。因此提供数据分析师熟悉的用户接口就变成很重要的事情。目前,我们提供的 RODPS,使用户具备在 R 中提交 SQL,并将结果数据拖回本地进行 R 分析计算的能力。

对于熟悉 Python DataFrame 的用户,我们提供的 PyODPS 则提供了更加强大的能力。PyODPS 提供了全新的分布式 ODPS DataFrame,可以直接用熟悉的 DF 来操作 MaxCompute 中的海量数据。PyODPS 能够自行构建对应的 SQL,进行优化并托管这些 SQL 的执行。PyODPS 甚至可以将本地的 Pandas DataFrame 和 ODPS DataFrame 进行混合操作(比如 join)!同时,PyODPS 天然可以与 Jupyter Notebook 相结合,构成强有力的交互开发环境。我们为此特意增加了如结果集的交互式可视化等功能,使基于 PyODPS 的数据分析空前的方便。这一切都可以通过 docker 镜像和免费体验服务快速获得。

目前,PyODPS 正在对接 MaxCompute TensorFlow。

Hadoop MR Adapter

MaxCompute 提供的 MapReduce 实现叫 OpenMR,编程接口跟 Hadoop MR 不太一样。迁移 Hadoop MR 到 OpenMR 是个挺吃力不讨好的事情,因此对于已经拥有 Hadoop MR 任务的用户,我们准备了 Hadoop MR Adapter。只需替换一个运行时 jar 包,即可将 Hadoop MR 任务在运行时改写成 OpenMR 任务执行。

目前这个插件已经接近完成,正在小范围测试。我们将在后续专门推出相关文章。

开放源代码

目前,我们的 Java SDKPyODPSJDBC 驱动 等都是 github 开源项目(恕未一一列举,您可以关注 Github 的 aliyun group 来获取完整的项目列表)。我们非常希望通过开放源码的形式,获得社区的帮助和建议,和社区形成良性的互动。

同时,我们的 Restful API 也向最终用户开放,欢迎各界爱好者共同完善 MaxCompute 的生态环境。

可喜的是,我们已经收到了来自开源爱好者贡献的 RubyPHP SDK。基于 Ruby SDK,我们顺利的开发了 Fluentd 插件,实在是令人高兴的事情。

欢迎加入MaxCompute钉钉群讨论

时间: 2025-01-27 21:21:00

MaxCompute 2.0 生态开放之路及最新发展的相关文章

MaxCompute 2.0 NewSQL演进之路

10月14日,2017杭州云栖大会·阿里云大数据计算服务(MaxCompute)专场,阿里巴巴计算平台架构师林伟分享了主题<MaxCompute2.0 NewSQL演进之路>,介绍阿里云大数据计算服务MaxCompute 2.0在NewSQL上所做的优化和实践工作.   DT时代,越来越多的企业应用数据步入云端,NewSQL也成为业内越来越热的话题,它可以帮助用户通过编程接口良好地访问和存储数据.本文将介绍阿里云MaxCompute应用NewSQL的背景.关键技术解读等内容.     背景  

MaxCompute 2.0:阿里巴巴的大数据进化之路

本次分享将主要围绕以下三个方面: 阿里云大数据计算服务概述 阿里巴巴数据平台进化之路 MaxCompute 2.0 Moving forward    一.阿里云大数据计算服务概述 阿里巴巴大数据计算服务MaxCompute的前身叫做ODPS,是阿里巴巴内部统一的大数据平台,其实从ODPS到MaxCompute的转变就是整个阿里巴巴大数据平台的演化过程.所以在本次会着重分享阿里巴巴大数据在过去七八年的时间所走过的路以及后续技术发展大方向.   首先做一个基本的定位,大家可以看到下面这张图是一个航

MaxCompute 2.0—从ODPS到MaxCompute

从ODPS到MaxCompute-阿里大数据的进化之路是一个商用大数据系统发展史,一个商业大数据系统要解决的问题有可靠性,高性能,安全性等等六个方面.内部产品名ODPS的MaxCompute,是阿里巴巴内部发展的一个高效能.低成本,完全托管的"EB级"大数据计算服务.从2009年9月阿里云成立,愿景就是做运算/分享数据第一平台:2010年4月,伴随阿里金融的贷款业务上线,ODPS正式投入生产运行,2012年建立统一数据平台,2013年具备超大规模海量数据处理能力,2014~2015年大

数据智能需求旺盛 阿里云MaxCompute 2.0华南区开服

8月31日,阿里云宣布将在深圳区域正式部署大数据计算服务MaxCompute,以进一步提升对华南区域客户服务的响应速度,并推动该地域人工智能产业的发展. 此前,凭借大规模计算存储.多种计算模型.强数据安全和低成本的优势,MaxCompute一直供不应求. 官方预计,深圳区域将于9月7日正式开放售卖,此后阿里云MaxCompute还将在年底前陆续新开北京.杭州.香港.新加坡.美国.日本.欧洲等节点.这显示了,阿里云正将MaxCompute这样的"核武器"快速推向全球市场. 新节点将部署M

重走0到100的路,小程序路在何方?

微信之父张小龙这样描述小程序:小程序是一种不需要下载安装即可使用的应用,它实现了应用"触手可及"的梦想,用户扫一扫或者搜一下即可打开应用.体现了"用完即走"的理念,用户不用关心是否安装了太多的应用这样的问题.应用将无处不在,随时可用,但又无须安装和卸载. 2011年1月,微信诞生,从2011年2月到4月,微信用户的增长并不快,所有的平台加起来每天也就增长几千人,那时候很多人不看好这个项目,甚至各种关于抄袭的质疑声不断传出. 张小龙当时是这么回应的:在微信3.0版本的

如何申请试用MaxCompute 2.0

MaxCompute 2.0 上线以来很多同学都在询问如何才能获取试用资格.在这里向大家简要介绍MaxCompute 2.0发布的功能,申请方式及如何使用. 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全. 了解更多 MaxCompute 2.0发布的功能包括: 更快的SQL执行引擎:降低企业大数据分析成本.SQL执行效率更高.

四个层面解析阿里云云市场生态建设之路

本文讲的是四个层面解析阿里云云市场生态建设之路[IT168 云计算]如今,提到云计算,已不陌生.从互联网时代到物联网时代,云计算从最初一个抽象的概念发展至今,已然成为人工智能的催化剂.云计算的利好之处服务于各个行业,正因如此,云生态在过去一年,变得愈加丰富多彩,变得愈加复杂和多变. IT产业链进化核心:云生态建设 过去,无论是互联网巨头BAT,还是传统IT厂商,都强调"渠道"建设.现在,无论是企业还是用户,越来越多的人谈"生态",合作伙伴,甚至是生态伙伴. 这样的转

刷新大数据技术知识新高度的MaxCompute 2.0就要来了

中国云计算产业最具影响力的盛会之一--2016杭州云栖大会(https://yunqi.aliyun.com/)将在云栖小镇召开.连续举办七届的云栖大会一直是业界了解阿里云计算生态发展和应用趋势.体验前沿技术和产品的最佳平台,来自海内外的上万名开发者.创业者聚集于此,分享着他们对云计算的思考与实践经验.7年来,从产品发布到行业解决方案展示,从关注技术到技术与服务并重,从单一的客户到生态全景的展现,大会的核心内容一直在"进化",而2016年杭州云栖大会,则以"飞天・进化&quo

解读浪潮云战略:技术融合与生态开放

在云计算市场,浪潮是一个重量级的玩家.浪潮自己拥有非常丰富的产品线,不仅有服务器.存储.机柜等硬件还有云海OS等众多相关软件,正是这些产品支撑起浪潮平台级云计算厂商的江湖地位.相应的,作为一个平台级的玩家,浪潮也身负了更多的责任,需要带领以浪潮为核心整个生态系统参与到市场争夺战. 实际上,面对日益激烈的市场竞争,如何凸显自己的竞争优势正在成为各个云计算玩家的必须面对的问题,特别是像浪潮这样的平台级厂商. 在不久前召开的2016浪潮服务器存储全国合作伙伴大会(IPF2016)上,浪潮对此给出了明确