MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF，万众期待的功能终于支持啦，我怎么能不一试为快，今天就分享如何通过Studio进行Python udf开发。

前置条件

了解到，虽然功能发布，不过还在公测阶段，如果想要使用，还得申请开通：https://page.aliyun.com/form/odps_py/pc/index.htm。这里我就不介绍申请开通具体流程了。

环境准备

MaxCompute Studio支持Python UDF开发，前提需要安装python, pyodps和idea的python插件。

安装Python：可以Google或者百度搜索下如何安装。
安装pyodps：可以参考python sdk文档的安装步骤。即，在 Python 2.6 以上（包括 Python 3），系统安装 pip 后，只需运行下 pip install pyodps，PyODPS 的相关依赖便会自动安装。
Intellij IDEA中安装Python插件。搜索Python Community Edition插件并安装
配置studio module对python的依赖。
- File -> Project structure，添加python sdk:
- File -> Project structure，添加python facets:
- File -> Project structure，配置module依赖python facets:

开发Python UDF

环境都准备好后，既可在对应依赖的module里创建进行python udf开发。

新建python脚本。

右键 new | MaxCompute Python，弹框里输入脚本名称，选择类型为python udf：

生成的模板已自动填充框架代码，只需要编写UDF的入参出参，以及函数逻辑：

本地调试

代码开发好后，可以在Studio中进行本地调试。Studio支持下载表的部分sample数据到本地运行，进行debug，步骤如下:

右键python udf类，点击”运行”菜单，弹出run configuration对话框。UDF|UDAF|UDTF一般作用于select子句中表的某些列，此处需配置MaxCompute project，table和column（元数据来源于project explorer窗口和warehouse下的example项目）:
点击OK后，通过tunnel自动下载指定表的sample数据到本地warehouse目录（若之前已下载过，则不会再次重复下载，否则利用tunnel服务下载数据。默认下载100条，如需更多数据测试，可自行使用console的tunnel命令或者studio的表下载功能）。下载完成后，可以在warehouse目录看到下载的sample数据。这里用户也可以使用warehouse里的数据进行调试，具体可参考java udf开发中的关于本地运行的warehouse目录”部分）。
然后本地运行框架会根据指定的列，获取data文件里指定列的数据，调用UDF本地运行。

注册发布Python UDF

代码调试好后，将python脚本添加为MaxCompute的Resource：

注意此处选择的MaxCompute project必须是已经申请开通python udf的project。

注册python 函数：
在sql脚本中编辑MaxCompute sql试用python udf:

好了，一个简单完整的python UDF通过Studio开发实践分享完成。

更多python UDF可以参考其他文章:

北京云栖大会MaxCompute又出大招，Python UDF抢先体验!
Python on MaxCompute之UDF操作命令行
Python实现MaxCompute UDF/UDAF/UDTF

使用MaxCompute的pyodps和Studio有疑惑可以工单咨询，更多探讨可以加入对应钉钉群一起畅聊：

时间： 2024-09-10 10:17:01

MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发的相关文章

MaxCompute Studio使用心得系列5——一个工具完成整个JAVA UDF开发

MaxCompute提供了丰富的内置函数,但是依然还是无法满足所有业务,所以自定义函数在所难免. MaxCompute目前支持的UDF主要是JAVA UDF,但是原来的客户端console和大数据开发套件都不支持JAVA编辑,只能先在自己机器的java环境中编辑测试好,然后输出jar包,再通过console或大数据开发套件将jar包添加成resource,最后再注册成function.整个过程需要跨工具平台,且JAVA环境还需配置好MaxCompute提供的Eclipse插件,流程长耗时多. 本

MaxCompute Studio使用心得系列4——可视化查看所有job并分析运行情况

在使用MaxCompute的时候,很多同学会关注当前项目有多少任务在执行,哪些任务耗时长,哪些任务已经完成,并且能通过任务的logview来分析任务耗时长的原因. ofo的同学选择自己搭建任务管理平台通过sdk函数获取MaxCompute 相关job信息进行管理.如<MaxCompute的任务状态和多任务执行>所分享. 其他的没有精力自己搭建平台,可以通过show p -all;命令查看所有job,再通过wait instanceid;查看这个job的logview,最后通过logview再查

MaxCompute Studio使用心得系列1——本地数据上传下载

MaxCompute Studio已经发布好久,一直没能好好体验,近期MaxCompute Studio 陆续推出很多好用的功能,今天开始给大家分享使用心得. 用过大数据开发套件的同学,对于本地数据上传下载,都会遇到这样的问题: '导入本地数据'功能,限制本地数据文件大小最大为10MB: 查询结果导出本地时,由于select语句返回结果最大为10000行的限制,最多只能导出1W数据: 数据导出本地文件的功能只有'查询结果导出本地'. 要解决以上问题,通常都是需要自己安装console客户端,通过

MaxCompute Studio使用心得系列3——可视化分析作业运行

上一篇写分享了通过MaxCompute Studio 编写sql脚本时"编译"功能带来的便捷,这次分享脚本编译好提交运行后,自助查看作业的执行情况. 我们很熟悉的是通过logview,去分析作业的执行情况,logview上有很详细的执行日志,而Studio不仅仅提供可视化的信息,还会明确给出一些分析结论如job是有否长尾或数据倾斜情况. 比如我写完一个sql脚本,编译成功接着执行脚本,Studio自动打开当前job的执行详细信息页面,包括job基本信息列表.详情展示和分析区(执行计划

MaxCompute Studio使用心得系列2——编译SQL脚本

开发人员写好代码,对代码进行语法编译是很常见的操作,但是目前常用的MaxCompute sql开发工具(大数据开发套件和console客户端),都没有该功能,必须把sql脚本提交运行后若有语法问题才会通过返回错误日志中获取相关信息. MaxCompute每次提交job都要少则几秒多则数分钟不等的排队过程,等返回失败信息,也需要等待一定的时间,不仅仅影响开发效率,还浪费计算资源. 本次分享通过MaxCompute Studio 进行SQL脚本开发过程中"编译"功能带来的便利. 前提条件

【直播回顾】通过MaxCompute Studio实践大数据时代的DevOps

内容简介:阿里云大数据平台 MaxCompute 系统为开发者提供全托管的.PB 级的数据仓库解决方案,MaxCompute Studio 是 MaxCompute 新推出的数据集成开发环境(IDE),为开发者提供了数据开发调试 - 命令行工具集成 - 自助作业分析诊断的全面解决方案. 我将通过 MaxCompute Studio 的智能代码编辑能力.数据管理及浏览能力.作业可视化和自助诊断能力等展现 MaxCompute 平台的数据开发和部署的强大和敏捷性. 观众受益:带领大家实现数据仓库

使用 MaxCompute Studio 开发大数据应用

MaxCompute(原ODPS)是阿里云自主研发的分布式大数据处理平台,为用户提供了开放的编程接口和 SDK,允许用户在其强大灵活的存储和计算能力之上开发自己的数据应用和系统,创造更大的价值. 为了能让这一过程更加顺畅高效,随着 MaxCompute 2.0 的发布,我们提供了 MaxCompute Studio,一套基于流行的集成开发平台 IntelliJ IDEA 的开发插件,让用户在集成开发环境(IDE)中更方便地进行数据开发. MaxCompute Studio 为开发者提供了良好的开

深入阿里云大数据IDE–MaxCompute Studio

摘要:在主办的云栖计算之旅第5期–大数据与人工智能分享中,阿里云计算平台高级专家薛明为大家深入地介绍了阿里云大数据IDE–MaxCompute Studio,并对于其特性和背后的技术思想进行了讲解. 本文根据演讲视频整理而成. 本次将与大家深入地分享阿里云数加平台的大数据开发套件--MaxCompute Studio.其实对于开发者而言,在大数据开发.数据处理以及管理作业时经常会使用到IDE,而在阿里巴巴内部也有上万名大数据开发者,他们也会使用数加平台,也就是阿里巴巴统一的计算引擎--MaxCo

MaxCompute Studio提升UDF和MapReduce开发体验

UDF全称User Defined Function,即用户自定义函数.MaxCompute提供了很多内建函数来满足用户的计算需求,同时用户还可以创建自定义函数来满足定制的计算需求.用户能扩展的UDF有三种:UDF(User Defined Scalar Function),UDTF(User Defined Table Valued Function)和UDAF(User Defined Aggregation Function). 同时,MaxCompute也提供了MapReduce编程接口

猜你喜欢

JSP学习笔记(一)-----概述

js|笔记 1.JSP是Java Server Pages的简写. 2.用JSP开发的Web应用是跨平台的. 3.JSP技术是Servlet技术的扩展.Servlet是平台无关的,100%纯Java的 ...

简述：网站LOGO的设计与作用

设计网上逛来逛去,也找不到一篇能全面讲述LOGO的文章,这也证明ONLY LOOG乃开此类之先河.Poorfish只好勉为其难,亲自操刀,凑出了以下的几段文字,自己也觉写得很是简单.浅溥,如果有什么 ...

JSP实现HTTP应答状态实例

js 在这个例子中,首先出现的HTML表单用来选择搜索引擎.搜索字符串.每页显示的搜索结果数量.表单提交后,Servlet提取这三个变量,按照所选择的搜索引擎的要求构造出包含这些变量的URL,然后把用 ...

PHP语言简介

PHP开发语言是一种快速.健壮.免费同时功能丰富的开发语言,拥有大量免费的功能库和开发工具可供使用.PHP适用于任何形态和规模的Web应用系统,作为互联网上应用最广泛的开发语言,PHP受到很多知名商业 ...

Android Xposed框架中如何创建模块

当然,你可以去学习如何创建一个Xposed模块.所以你可以阅读这篇教程(官方教程)去学习怎样解决这个问题.这不仅仅讲解如何新建模块.如何编写模块,我们要往更深处思考,为什么按照这些步骤,为什么要新建这 ...

一步一步SharePoint 2007之四十六

实现Excel Service(1)--创建Excel文档列表摘要 Microsoft Office 2007发布后,我们的世界就改变了.在Excel 2007中,Microsoft公司终于加入了 ...

利用.NET 3.0技术构建互操作保险系统

适用于: Microsoft .NET Framework 3.0 本页内容简介保险业影响因素本文档中使用的行业术语人寿保险保单案例结构概述保险代理人保单系统保险公司系统具有什么价值? ...

反转负冲效果

效果图: 原图: 步骤: 相关教程: PhotoShop为美女照片制作反转负冲效果 PS反转负冲效果应用什么是反转负冲反转负冲知识

如何清除Win7 flash缓存文件

对于清除电脑垃圾,可能很多朋友比较熟悉的还是系统的垃圾文件,例如回收站里面的,还有缓存文件,但是大家可能不知道,我们平时看电影的一些举动,也是会产生很多垃圾文件的!这些缓存的flash文件若是不清 ...

wifi共享大师怎么限速拉黑

wifi共享大师怎么限速拉黑?小编用过不少WiFi共享Software,发现wifi共享大师界面比较简洁,而且还能设置自动关机实现手机控制,还是很不错的.使用软件的过程中,万一还有人蹭网拖慢网速怎 ...

无法播放流媒体文件

使用暴风影音2010播放流媒体文件的时候,画面花屏,但是有声音. 这种故障可能是播放设置问题造成的,打开暴风影音,选择"主菜单"→"高级选项",在" ...

三季度：Android 份额暴涨至70%，iOS略有下降

知名市场调研公司Gartner今日公布了2012年第三季度全球移动设备销量数据.今年第三季度,全球手机销售下降3%,智能手机出货量达到了 1.692亿,比去年同期增长47%.移动设备出货量统计中,三星 ...

双向链表的C实现

双向链表需要定义一个结构体,结构体有3个属性 typedef struct __Node{ int data; 数据 struct __Node *pre; 指向前一个结点 ...

数据科学家需要了解的45个回归问题测试题（附答案）

简介回归技术不仅包含线性和逻辑回归方面知识,它还体现了多种建模和分析变量的能力.此项技能测试是为了评估你在众多回归技术方面的概念和运用能力. 此次共有1845名选手参与测试,我能确信,这是在回归领域 ...

浏览器缓存机制

利用浏览器缓存,可以使得页面加载速度提高,也减轻服务端压力.有几个比较重要点如下: 1. 浏览器是如何判断缓存是否过期? 2. 服务端如何判断缓存已失效? 3. 为什么有了Last-Modified还 ...

jquery的问题-好心人帮小弟看看这什么意思jquery的

问题描述好心人帮小弟看看这什么意思jquery的 var links=$("a",$(".title")[0]) 这里的$(".title" ...

springmvc-WebService客户端访问serveler如何设置访问密码

问题描述 WebService客户端访问serveler如何设置访问密码 WebService客户端访问SpringMVC servelet如何设置访问密码解决方案 http://wenku.bai ...

gdi-win32 GDI 定时器问题

问题描述 win32 GDI 定时器问题设置了两个定时器相互之间互相转换以达到人物来回自动移动的目的另外还有一个由用户自己控制的人物可以自由移动但是每当这个来回移动的人物走到定时器要互相 ...

企业接电信的emas，请问如何向mas中写入数据发送短信

问题描述企业接电信的emas,请问如何向mas中写入数据发送短信,设备为华为的emas,听人说只要将数据写入数据库就行,有高手指点下吗? 解决方案解决方案二:insertintotbl_SMSen ...

c#-欧巴们，当代码中出现了多余的； C#初学

问题描述欧巴们,当代码中出现了多余的 : C#初学 int sum = 0; for (int i = 0; (i % 2 == 0) && i <= 100; i++) { ...

套料软件市场占有率比较高的是什么软件?

问题描述一定要自动套料的软件,手工套料的太烦人了.还有软件售后服务也要好,这样我们才考虑.. 解决方案解决方案二:这个XSuperNEST完全满足的哦你可以百度了解一下全自动下来解决方案XSupe ...

javascript-JSP页面加载过程中阻塞与优化

问题描述 JSP页面加载过程中阻塞与优化加载JSP页面时,由于初始化的js执行的方法与数据库进行大量的交互,造成阻塞,页面加载不完整,页面处于无响应状态,在加载时,添加一个超时方法,页面显示完整,页 ...

android开发-关于不同的activity获得SQLite对象

问题描述关于不同的activity获得SQLite对象我创建了一个SQLite以及操作这个数据库的类,代码如下这是数据库的类 public class account extends SQLit ...

在Python3中使用asyncio库进行快速数据抓取的教程_python

web数据抓取是一个经常在python的讨论中出现的主题.有很多方法可以用来进行web数据抓取,然而其中好像并没有一个最好的办法.有一些如scrapy这样十分成熟的框架,更多的则是像mechanize ...

CMake命令之list

用途:提供一些列表操作 list(LENGTH <list><output variable>) list(GET <list> <elementindex ...

itoa的两种实现

一种是linux的实现,一种是Solaris的实现,代码如下:. namespace linux{ void itoa( int i,char* string) { int ...

马上大四的人了，程序员还是公务员真心叫我纠结。。。

问题描述马上大四的人了,程序员还是公务员真心叫我纠结...刚又被老妈电话训了半个小时..心情不好的说电话主要内容就还是各种旁敲侧击哪家孩子又考上哪儿哪儿公务员巴拉巴拉的,一个女孩儿你干什么程序员,最 ...

IBM供应链转型主动支持企业战略

不久前,IBM向中国市场发布了<2009全球首席供应链官调查报告--智慧的未来供应链>.报告指出,当前的企业供应链管理正面临严峻的挑战.企业供应链主管们发现,如果仍然依靠传统的供应链策略 ...

安卓开发：自定义多选框/单选框对话框在onPrepareDialog怎么控制选项(选中、未选中)状态？

问题描述如题~通过AlertDialog的setMultiChoiceItems,setSingleChoiceItems可以添加个多选框和单选框.我修改选项后,我点击取消按钮,下次再显示该对话框时 ...

【转】保证分布式系统数据一致性的6种方案

问题的起源在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性? 具体业务场景如下,比如一个业务操作,如果同时调用服务 A.B.C,需要满足要么同时成功:要么同时失败.A ...

热搜