【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合

MaxCompute大家都不陌生,之前产品名称叫ODPS,之后随国际化而更名。从支持阿里集团内部99%数据业务到计算能力对外输出,帮助政府、互联网公司、金融等进行大数据项目服务,使得数据变现。很多开发者都会把MaxCompute和开源社区Hadoop、hive进行比较,此处不做过多评论,各有优势。但是不得不说MaxCompute这几年在生态上向前走了一大步。

关于 MaxCompute2.0 对开源系统的支持与融合 的整体介绍及团队规划,详见文档。

最近,我也针对MaxCompute在生态融合上也进行了一些研究和拜读,因为现在资料还比较零散,就把自己在过程中遇到的好材料统一为大家梳理如下,包括SDK、JDBC等。

MaxCompute SDK

首先我们先来看SDK,想必很多有能力的互联网公司都有大量的个性化需求,都会对SDK/API有一些需求,比如小黄车这样的体量大的客户,就基于MaxCompute SDK做了大量的应用。那具体SDK包括Java、Python、R以及PHP(PHP为社区提供,并非阿里云官方出品,但都可以满足大部分需求)。如图所示:

  • Java SDK:MaxCompute团队官方开发并维护,具体可以详见:官网文档 和 SDK Java DOC
  • Python SDK:MaxCompute团队官方开发并维护的PyODPS,具体可以详见:官网文档 和 博客。

更大强大的功能,大家可以期待下团队将在北京云栖大会对外正式公测的python UDF,这将大大的提高python开发者对MaxCompute的开发效率和功能。

  • R SDK:RODPS也较大满足开发者使用R做数据分析的需求,具体安装及使用可以详见 博文

  • PHP SDK:PHP SDK并非MaxCompute团队官方出品,由社区招募完成开发工作,具体有PHP需求的同学也可以参考PHP SDK文档,可以满足PHP开发的大部分需求。

MaxCompute JDBC 2.2 发布说明

对接已有软件并提供标准JDBC编程接口,MaxCompute JDBC 2.2正式版已于2017年2月24日正式发布。

  1. 通过Apache Zeppelin 快速实现数据可视化
  2. 借力QlikView玩转数据分析

Hive Proxy

提供Hive Thrift协议兼容接口,对接Hive社区已有的工具。Hive Proxy 部署在客户端,将 Hive 的 thrift 请求转换成 MaxCompute 的 Restful API 请求,可以用来直接对接诸如 Tableau、Qlik 这样不直接支持 JDBC 的 BI 工具,或者 HPL 这样的 Hive 组件,详见 博文。

  • 示例1:复用Hive ODBC实现Tableau到MaxCompute的连通
  • 示例2:复用Hive JDBC实现Beeline到MaxCompute的连通

具体详见:

ETL tool-数据上云工具

  • Kettle:[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云
  • sqoop:MaxCompute有一款是基于社区sqoop 1.4.6版本开发的Sqoop,增加了对MaxCompute的支持,可以支持将数据从Mysql等关系数据库和MaxCompute的导入和导出,也支持从Hdfs/Hive导入数据到MaxCompute的表中。 具体用法可以参考:https://github.com/aliyun/aliyun-maxcompute-data-collectors/wiki/odps-sqoop
  • OGG:主要适用于源库为Oracle,可以通过其采集实时更新数据到DataHub中。 通过OGG将数据采集至MaxCompute/基于OGG Datahub插件将Oracle数据同步上云
  • Fluentd:该插件遵守Fluentd输出插件开发规范,安装方便,可以很方便地将采集得到的数据写到DataHub。通过Fluentd将数据采集至MaxCompute
  • Flume:Flume插件下载并安装地址,基于Apache Flume Datahub插件将日志数据同步上云,点击进入
  • Logstash:Logstash是一种分布式日志收集框架,非常简洁强大,经常与ElasticSearch,Kibana配置,组成著名的ELK技术栈,非常适合用来做日志数据的分析。 通过Logstash将日志数据采集至MaxCompute。

关于Logstash将日志采集MaxCompute,然后做数据分析有详细step by step 文档,点击进入。

Spark on ODPS、ElasticSearch on ODPS等在专有云和阿里集团内成熟应用,公共云上的开发者可能要耐心等待一段时间。

时间: 2024-09-04 22:32:32

【干货索引】阿里云大数据计算服务MaxCompute与生态系统的融合的相关文章

[使用初学者]如何快速玩转阿里云大数据计算服务MaxCompute

背景: 针对即将要开通MaxCompute或者已经开通MaxCompute但是还没有梳理清楚其中的概念,也无从下手如何快速入门MaxCompute?近期在这一方面上,咨询的同学也越来越多,总体在学习路径上也有一些资料可以分享给大家,更多的概念.产品定义可以详见官网文档. 关于如何开通: step1:登录管控台 >> step2:开通服务模式(预付费/后付费) 只需要两步就可以搞定!! step1:点击进入大数据计算服务产品MaxCompute详情页,点击立即购买. step2:选择按量付费并点

阿里云大数据计算服务MaxCompute(原ODPS)华南1(深圳)Region即将开服!

2017年9月7日,阿里云数加·MaxCompute(原ODPS)华南1(深圳)数据中心正式开服售卖,这是数加·MaxCompute在国内开服的第二个区域.届时MaxCompute将会针对新服开展促销活动,具体活动规则敬请期待! 关于售价 华南1区域价格与华东2一致,主要收费分3部分:存储.计算.下载,其中计算(指SQL和MR计算任务)分预付费.按量后付费两种模式,存储和下载都是按量后付费.做预算的具体的售价信息请看官网定价页或<计量计费文档>. 关于开通 确保云账号是实名认证的账号,在开通购

阿里云大数据计算服务香港开服

9月18日,阿里云宣布大数据计算服务MaxCompute在香港正式开服.通过MaxCompute的计算能力,阿里云将为香港市场提供更多的人工智能产品,助力当地企业智能化升级. 据了解,MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速解决用户海量数据计算问题,有效降低企业成本.保障数据安全. 香港节点部署的为MaxCompute2.0版本.新版本除了具有更高性能运算.支持非结构化数据处理及任意数据格式之外,还支持更多的语言功能,为人工智能等热门领域提供海量

【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式

免费开通大数据服务:https://www.aliyun.com/product/odps 想用阿里云大数据计算服务(MaxCompute),对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute中.按照数据迁移场景,大致可以分为批量数据.实时数据.本地文件.日志文件等的迁移,下面我们针对每种场景分别介绍几种常用方案. 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海

阿里云数加大数据计算服务MaxCompute学习路线图 (持续更新中)

免费开通大数据服务:https://www.aliyun.com/product/odps 最近很多客户私信来咨询如何学习阿里云数加大数据计算服务MaxCompute 技术.为此,我们列了一个路线图供大家学习大数据计算服务MaxCompute.这个列表包含了一些社区的优秀资料和我们的原创文章.我们会随着大数据计算服务MaxCompute技术的发展持续更新本文,也会在继续贡献内容来帮助同学们快速入门或持续提高. 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,

一分钟了解阿里云产品:大数据计算服务MaxCompute概述

  阿里云发布了许多产品,今天让我们来了解下大数据计算服务MaxCompute这款产品吧.     什么是MaxCompute呢?   MaxCompute是由阿里云自主研发,是阿里巴巴自主研发的海量数据处理平台.提供针对TB/PB级数据.实时性要求不高的分布式处理能力,应用于数据分析.挖掘.商业智能等领域.主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务.阿里巴巴的离线数据业务都运行在MaxCompute上.   MaxCompute有什么优势和

阿里云大数据实验室:MaxCompute使用体验

阿里云大数据实验室时阿里云开发的一站式大数据教学实践和科研创新平台,提供创业创新大赛平台,为各行业用户提供简单易用的大数据真实环境,让数据价值触手可及.在阿里云大数据实验室中集成了MaxCompute.        作为一名初次使用MaxCompute的用户,我体会颇深.MaxCompute 开箱即用,拥有集成化的操作界面,你不必关心集群搭建.配置和运维工作.仅需简单的点击鼠标,几步操作,就可以在MaxCompute中上传数据,分析数据并得到分析结果. 作为一种快速.完全托管的 TB/PB 级

大数据计算服务Maxcompute之--mapjoin原理和使用

大数据计算服务(MaxCompute,原名 ODPS)是一种快速.完全托管的 GB/TB/PB 级数据仓库解决方案.https://help.aliyun.com/document_detail/27800.html?spm=5176.7840267.6.539.po3IvS 主要有三种操作数据的方式SQL,UDF,MapReduce,了解hadoop的同学就比较熟悉这些东西了. 那么Maxcompute的SQL和标准SQL最大的区别就是在Maxcompute中SQL会被解析成MapReduce

阿里云大数据计算平台的自动化、精细化运维之路

免费开通大数据服务:https://www.aliyun.com/product/odps 作者简介:   范伦挺 阿里巴巴 基础架构事业群-技术专家 花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人.团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute.AnalyticDB.StreamCompute等)的运维.架构优化及容量管理等 1.前言 本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战: 阿里自动化平台建设: 数据精细