MaxCompute Studio使用心得系列1——本地数据上传下载

MaxCompute Studio已经发布好久,一直没能好好体验,近期MaxCompute Studio 陆续推出很多好用的功能,今天开始给大家分享使用心得。

用过大数据开发套件的同学,对于本地数据上传下载,都会遇到这样的问题:

  • ‘导入本地数据’功能,限制本地数据文件大小最大为10MB;
  • 查询结果导出本地时,由于select语句返回结果最大为10000行的限制,最多只能导出1W数据;
  • 数据导出本地文件的功能只有‘查询结果导出本地’。

要解决以上问题,通常都是需要自己安装console客户端,通过tunnel命令进行导入导出。

现在来分享使用MaxCompute Studio工具界面,可以更轻松完成tunnel命令能完成的本地数据导入导出工作。

MaxCompute Studio工具安装请参考文档安装 IntelliJ IDEA、安装MaxCompute Studio.

本地数据导入

前提条件:表、分区已经存在,操作人有权限对表进行数据写入。

进入MaxCompute Studio的Project Explorer窗口,展开Data Preview,鼠标对需要导入数据的表右键,选择 Import data into table

弹出的框里选择上传的本地数据文件路径、分区(非分区表无需填)、分隔符、行数限制、大小限制等:

注意:大小限制(Size Limit)不限于10MB。

点击OK后可以看右下角进度条,最终成功与否会在Event Log里可查看相关日志。导入成功日志中会给出写入成功的行数和写入失败的行数。如:

上午10:35 Success: Import to table tablename from file /Users/.../Documents/.../t_data.txt finished, success [ 220977 ], failed [ 0 ].

数据导出本地

前提条件:操作人有权限对表进行数据导出。

进入MaxCompute Studio的Project Explorer窗口,展开Data Preview,鼠标对需要导入数据的表右键,选择 Export data from table

弹出框输入导出文件地址包括文件名文件类型(CSV或TXT)、选择需要下载的分区(非分区表直接下载整张表)、导出行数限制、大小限制等。

注意:行数不限于10000行,大小不限于10MB,可以下载整张非分区表或分区表的整个分区。

点击OK后可以看右下角进度条,最终成功与否会在Event Log里可查看相关日志。导出成功日志中会给出导出成功的行数和导出失败的行数。如:

上午10:47 Success: Export from table tablename to file /Users/..../Desktop/... finished, success [ 220977 ], failed [ 0 ].

结束语:MaxCompute Studio中上述的本地数据导入导出功能实际上就是采用 MaxCompute Tunnel 服务,功能与Tunnel命令一样。

时间: 2024-09-24 20:59:02

MaxCompute Studio使用心得系列1——本地数据上传下载的相关文章

MaxCompute Studio使用心得系列4——可视化查看所有job并分析运行情况

在使用MaxCompute的时候,很多同学会关注当前项目有多少任务在执行,哪些任务耗时长,哪些任务已经完成,并且能通过任务的logview来分析任务耗时长的原因. ofo的同学选择自己搭建任务管理平台通过sdk函数获取MaxCompute 相关job信息进行管理.如<MaxCompute的任务状态和多任务执行>所分享. 其他的没有精力自己搭建平台,可以通过show p -all;命令查看所有job,再通过wait instanceid;查看这个job的logview,最后通过logview再查

MaxCompute Studio使用心得系列2——编译SQL脚本

开发人员写好代码,对代码进行语法编译是很常见的操作,但是目前常用的MaxCompute sql开发工具(大数据开发套件和console客户端),都没有该功能,必须把sql脚本提交运行后若有语法问题才会通过返回错误日志中获取相关信息. MaxCompute每次提交job都要少则几秒多则数分钟不等的排队过程,等返回失败信息,也需要等待一定的时间,不仅仅影响开发效率,还浪费计算资源. 本次分享 通过MaxCompute Studio 进行SQL脚本开发过程中"编译"功能带来的便利. 前提条件

MaxCompute Studio使用心得系列5——一个工具完成整个JAVA UDF开发

MaxCompute提供了丰富的内置函数,但是依然还是无法满足所有业务,所以自定义函数在所难免. MaxCompute目前支持的UDF主要是JAVA UDF,但是原来的客户端console和大数据开发套件都不支持JAVA编辑,只能先在自己机器的java环境中编辑测试好,然后输出jar包,再通过console或大数据开发套件将jar包添加成resource,最后再注册成function.整个过程需要跨工具平台,且JAVA环境还需配置好MaxCompute提供的Eclipse插件,流程长耗时多. 本

MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF,万众期待的功能终于支持啦,我怎么能不一试为快,今天就分享如何通过Studio进行Python udf开发. 前置条件 了解到,虽然功能发布,不过还在公测阶段,如果想要使用,还得申请开通:https://page.aliyun.com/form/odps_py/pc/index.htm.这里我就不介绍申请开通具体流程了. 环境准备 MaxCompute Studio支持Python UDF开发,前提

MaxCompute Studio使用心得系列3——可视化分析作业运行

上一篇写分享了通过MaxCompute Studio 编写sql脚本时"编译"功能带来的便捷,这次分享脚本编译好提交运行后,自助查看作业的执行情况. 我们很熟悉的是通过logview,去分析作业的执行情况,logview上有很详细的执行日志,而Studio不仅仅提供可视化的信息,还会明确给出一些分析结论如job是有否长尾或数据倾斜情况. 比如我写完一个sql脚本,编译成功 接着执行脚本,Studio自动打开当前job的执行详细信息页面,包括job基本信息列表.详情展示和分析区(执行计划

MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps MaxCompute 的数据上传接口(Tunnel)定义了数据 block 的概念:一个 block 对应一个 http request,多个 block 的上传可以并发而且是原子的,一次同步请求要么成功要么失败,不会污染其他的 block.这种设计对于服务端来讲十分简洁,但是也把记录状态做 failover 的工作交给了客户端. 用户在使用 Tunnel

关于插入数据时候报错提示-在建立与服务器的连接时出错。在连接到 SQL Server 2005 时--本地成功.上传到服务器上运行错误

问题描述 用户可以登陆.说明链接成功;但不能插入数据.插入数据就提示下面错误---本地成功.上传到服务器上运行错误SqlConnectioncon=Class1.DBconnection();行59:con.Open();------------------------------------------(这里提示错误)行60:SqlCommandcom=newSqlCommand(sql,con);行61:returncom.ExecuteScalar().ToString();在建立与服务器

【AllJoyn专题】基于AllJoyn和Yeelink的传感器数据上传与指令下行的研究

接触高通物联网框架AllJoyn不太久,但确是被深深地吸引了.在我看来,促进我深入学习的原因有三点:一.AllJoyn开源,对开源的软硬件总会有种莫名的喜爱,尽管也许不会都深入下去:二.顺应潮流,物联网虽远未普及,但已是大势所趋,高通公司在领域布局,致力于打造舒适高效的智能家居场景,推出AllJoyn软件框架,适应了发展趋势:三.文档丰富,开源软件的使用,特别是框架,若没有文档相助,相信没有多少开发者愿意尝试,AllJoyn在这方面做得不错,日后还需做得更好.当然啦,也有些额外原因,包括高通的大

护卫神异地备份系统怎么将数据上传到服务器上?

护卫神异地备份系统可以对各类数据实时或定时上传到原创FTP服务器备份,也可以定时从远程FTP服务器下载到本地进行备份.那么这个软件是如何将数据上传到服务器上呢?又是怎么从服务器上下载文件到本地呢?具体方法如下: 护卫神异地备份系统怎么将数据上传到服务器上? 一.上传任务列表 说明: 1.如上图,可以新增.修改.删除 上传任务,功能十分齐全; 2.其中,[立即备份到远程服务器],点击之后,将会将本地文件全部上传到服务器,如果服务器存在相同的,则不会覆盖,减少传输量. 3.[清理队列],表示清理正在