MaxCompute 入门

MaxCompute 入门

why

在分析海量数据场景下,由于单台服务器的处理能力限制,数据分析者通常采用分布式计算模式。但分布式的计算模型对数据分析人员提出了较高的要求,且不易维护。使用分布式模型,数据分析人员不仅需要了解业务需求,同时还需要熟悉底层计算模型。

举个例子来说,当我们需要统计海量的数据时,常规的做法是我们要先搭建hadoop集群,启动ResourceManager,NodeManager,Namenode等组件,然后部署Hbase。接下来是导入数据到Hbase,最后开始设计并实现MapReduce或者Spark,Flink等job........可能很多人在第一步就已经从入门到放弃了

what

大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

MaxCompute 主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百 GB、TB 乃至 PB)级别。

how

接下来就亲自实践一下官方给的bank的例子吧,如建表并导入数据
中提到的,先创建bank_data和result_data两个表,并导入数据。接下来我们创建工作流去统计不同学历的单身人士贷款买房的数量。直接cp示例sql后,首先弹出了如下对话框:

因为选择的是IO后付费,但不知为何预估费用没有显示,不管了,先运行看看,得到如下提示:

原因是未找到table,仔细看下左侧的ODPS表,原来还有个mihe_test的前缀,修改sql再试:


这次给出了预估费用

运行成功,我们在resu_table中也看到了结果

这种拖拽式真的很方便

PS:
1. 貌似通过预估费用就可以预判出sql是否正确了?
2. 在创建项目是随便写了个test,提示项目被占用了,但自己的项目列表里没有,后来发现,原来项目名称是全局的,最后加了个前缀解决了。从平台管理的角度来说要保证project name的唯一性无可厚非,但是从用户角度来看,自己的project应该就是在自己的域下面,不应该存在被占用的情况,所以是否可以考虑允许用户随意指定名称,只是管理的时候加个用户的域的前缀?

时间: 2024-12-21 10:45:04

MaxCompute 入门的相关文章

阿里云「MaxCompute最佳实践」征文大赛获奖文章公布

DT时代,越来越多的企业应用数据步入云端.与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.比如东润环能在3个月内业务全面交付云端,数据处理时间不到原来自建方式的1/3,并确保云上数据安全无忧.墨迹天气日志分析业务迁移到数加MaxCompute后,开发效率提升了超过5倍,存储和计算费用节省了70%,每天处理分析2TB的日志数据,更高效的赋能其个性

数据库工程师快速上手MaxCompute进行ETL

案例说明 本案例主要是介绍如何通过数加MaxCompute+大数据开发套件两个产品实现简单的网站数据统计分析. 适用人群 MaxCompute初学者,特别是无大数据开发基础但有数据库使用基础. 案例侧重 数据库工程师快速上手MaxCompute进行大数据开发,简单了解在MaxCompute做大数据ETL过程,同时了解一些MaxCompute SQL和常用数据库SQL的基本区别. 示例介绍 房产网上经常会看到一些排行榜,如最近30日签约的楼盘排行.签约金额的楼盘排行等,本示例我们简单介绍通过对二手

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

MaxCompute(原ODPS)开发入门指南--数据开发工具篇 写在最前面 >>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务. 大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等...具体详见<MaxCompute(原ODPS)开发入门指南--数据上云篇>. 但是数据在MaxCompute上了之后,问题又来了,我怎么基于上面进行快速的数据开发,构建

MaxCompute(原ODPS)开发入门指南——数据上云篇

MaxCompute(原ODPS)开发入门指南--数据上云篇 写在最前面 >>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务. 根据<MaxCompute(原ODPS)开发入门指南--计量计费篇>的了解,大家清楚了MaxCompute可以做什么,计费模式如何,想必大家也开通了MaxCompute想进行一次POC,但是大家遇到第一个问题一定是我的数据如何上云? 可通过多种方式数据流入MaxCompute MaxCompute(原ODPS)提

MaxCompute(原ODPS)开发入门指南——计量计费篇

MaxCompute(原ODPS)开发入门指南 写在最前面 >>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务. 近期介绍大量数据上云用户关于MaxCompute的一些问题,现就MaxCompute产品线的一些工具栈可以和大家进行交流,也欢迎大家拍砖和来扰,一起学习一起进步!也希望能够在帮助到大家! 系列文章会涉及到的内容 0.MaxCompute概述:是什么?可以做什么?收费模式? 1.数据上云工具介绍:Log.Logstash.Flume.Flu

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数

Datahub Python SDK入门手册

前言 DataHub是 MaxCompute 提供的流式数据处理(Streaming Data)服务,它提供流式数据的发布 (Publish)和订阅 (Subscribe)的功能,让您可以轻松构建基于流式数据的分析和应用.DataHub 可以对各种移动设备,应用软件,网站服务,传感器等产生的大量流式数据进行持续不断的采集,存储和处理.用户可以编写应用程序或者使用流计算引擎来处理写入到 DataHub 的流式数据比如实时web访问日志.应用日志.各种事件等,并产出各种实时的数据处理结果比如实时图表

阿里云数加大数据计算服务MaxCompute学习路线图 (持续更新中)

免费开通大数据服务:https://www.aliyun.com/product/odps 最近很多客户私信来咨询如何学习阿里云数加大数据计算服务MaxCompute 技术.为此,我们列了一个路线图供大家学习大数据计算服务MaxCompute.这个列表包含了一些社区的优秀资料和我们的原创文章.我们会随着大数据计算服务MaxCompute技术的发展持续更新本文,也会在继续贡献内容来帮助同学们快速入门或持续提高. 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,

MaxCompute Studio使用心得系列5——一个工具完成整个JAVA UDF开发

MaxCompute提供了丰富的内置函数,但是依然还是无法满足所有业务,所以自定义函数在所难免. MaxCompute目前支持的UDF主要是JAVA UDF,但是原来的客户端console和大数据开发套件都不支持JAVA编辑,只能先在自己机器的java环境中编辑测试好,然后输出jar包,再通过console或大数据开发套件将jar包添加成resource,最后再注册成function.整个过程需要跨工具平台,且JAVA环境还需配置好MaxCompute提供的Eclipse插件,流程长耗时多. 本