ODPS SQL费用估算与控制

 MaxCompute  ODPS SQL费用估算与控制

 

作者:顾飞

一 需求背景

费用挑战

ODPS老用户应该都了解过其计费方式,如果不清楚计费方式,可以参考阿里云文章:https://help.aliyun.com/document_detail/27989.html?spm=5176.doc27833.6.701.8vl39E
。阿里云本身提供了CU(固定资源)和计算两种计费方式,而我们公司在BI上云的过程中使用的是采云间,它仅支持SQL计算计费方式步支持CU方式,而保险行业又是一个基于数据才能工作的行业, 每个部门都有自己的数据需求,在数据仓库之上的数据用户和应用又是非常的多,这使得我们在ODPS SQL费用控制上遇到了很大的挑战。刚开始3个月,我们的ODPS费用都是差好几倍,这与我们的业务增长两完全不符合。 在使用ODPS的前四个月我们面对如此大的费用差距,而我们的SQL 每个月都有几万次执行次数,几乎无从下手。

具体问题

1 遇到费用差距如此之大,
那我们就要去找到那些费用非常高的SQL, 我们根据阿里云提供的SQL 执行日志,发现很多SQL 运行一次要数千元, 很多都是LEFT JOIN没有做到分区过滤造成,比如:a left  outer join  b  on a.id = b.id where a.pt= "${date}" and b.pt= "${date}",对于b表的分区过滤是失效的,造成sql的全表扫描,而需要将其改成: a left outer join  (select * from b where b.pt= "${date}" ) b on a.id = b.id where pt where a.pt= "${date}" 这样写才能做到过滤分区
  

2 还有一些SQL 有数千条,都是100元以上的费用, 主要原因由于每个SQL都是从最明细的底层表去抽取,造成SQL 的复杂度和输入数据量都非常得高。

 

二 解决方案

对于这样局面我们提供了三种解决方案,来改进这样的局面。

方案一: SQL 签名

大家用过ORACLE 应该都知道AWR报表,里面可以根据同一个SQL ID在不同时间维度下进行SQL执行次数、平均执行时长、耗CPU率来分析性能问题,同样这对ODPS SQL同样适用,如下:

 

 

 

每个SQL都需要有一个唯一的签名才能做到, 我们的做法是用MD5算法进行哈希,生成一个128位的Hash Value,其中低32位作为HASH VALUE显示,SQL_ID则取了后64位,你可以用任何语言来实现。当这个SQL签名出来以后,我们很容易找到那些执行次数多,
数据量大,SQL复杂度高的SQL,给我们SQL 费用优化上带来了极大的便利。

方案二: SQL费用估算器

接下来我们需要一个SQL估算器,我们每写完一个SQL都需要去估算下多少钱,我们才能上线,ODPS计算计费公式为:一次SQL计算费用 = 计算输入数据量 * SQL复杂度 * SQL价格,  那么我就需要用一个WEB界面来实现这个公式。 非常感觉阿里云提供了ODPS sdk,使得用户可以构建给予ODPS的SAAS服务。

下面是我的工程目录:


 

其中最核心的API调用如下,SqlCostTask 这个函数就能获取(计算输入数据量 * SQL复杂度 * SQL价格)这三个变量了:


 

估算界面:

 


 

方案三:在数据仓库之上构建汇总层

在我们知道哪些SQL费用比较高以后,我们就可以有针对性地优化,
最好的方式就是根据需求的共性在DW 层之上建立一层汇总层,
很报表和对帐MaxCompute最佳实践

时间: 2024-07-28 12:38:59

ODPS SQL费用估算与控制的相关文章

通过Windows Azure SQL数据库防火墙规则控制数据库访问

今天的文章来自于我们用户体验团队的技术作家Kumar Vivek.这篇文章对Windows http://www.aliyun.com/zixun/aggregation/13357.html">Azure SQL数据库中新推出的数据库级防火墙规则进行了简要概括. Windows Azure SQL数据库防火墙能够阻止他人对你SQL数据库的访问,以助你保护数据.你能够指定防火墙规则,如限定允许访问的IP地址范围,来控制对数据库的访问.然而,这些规则定义在服务器层级,允许被授权的终端访问你的

SQL批处理与事务控制

今天我想要分享的是关于数据库的批处理与事务的控制.批处理对于项目的实际应用有非常大的具体意义. 一.批处理部分 首先我们新建一个表:  create table t3(id int primary key auto_increment,name varchar(100)); 注意:auto_increment只适用于mysql中,对于oracle需要用的是创建一个序列来实现自动增长:create squences seq_t3_id  start with 1 increment by 1;这里

PL/SQL学习笔记-条件控制

一:if条件控制先看一段程序: declare v_content varchar2(66); begin select content into v_content from xland where title='xland'; if length(v_content)>6 then v_content := substr(v_content,0,6)||'...'; else v_content := v_content||'(全部数据)'; end if; dbms_output.put_

阿里云「MaxCompute最佳实践」征文大赛获奖文章公布

DT时代,越来越多的企业应用数据步入云端.与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.比如东润环能在3个月内业务全面交付云端,数据处理时间不到原来自建方式的1/3,并确保云上数据安全无忧.墨迹天气日志分析业务迁移到数加MaxCompute后,开发效率提升了超过5倍,存储和计算费用节省了70%,每天处理分析2TB的日志数据,更高效的赋能其个性

从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL

SQL基础有这些操作(按照执行顺序来排列): from join(left join, right join, inner join, outer join ,semi join) where group by select sum distinct count order by 如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法.接下来我们一个一个的谈: from 这个操作是在解析过程中就完成了,目的就是找出输入的表(文件). join(

SQL Server数据库性能优化

设计1个应用系统似乎并不难,但是要想使系统达到最优化的性能并不是一件容易的事.在开发工具.数据库设计.应用程序的结构.查询设计.接口选择等方面有多种选择,这取决于特定的应用需求以及开发队伍的技能.本文以SQL Server为例,从后台数据库的角度讨论应用程序性能优化技巧,并且给出了一些有益的建议. 1 数据库设计 要在良好的SQL Server方案中实现最优的性能,最关键的是要有1个很好的数据库设计方案.在实际工作中,许多SQL Server方案往往是由于数据库设计得不好导致性能很差.所以,要实

MaxCompute(原ODPS)开发入门指南——计量计费篇

MaxCompute(原ODPS)开发入门指南 写在最前面 >>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务. 近期介绍大量数据上云用户关于MaxCompute的一些问题,现就MaxCompute产品线的一些工具栈可以和大家进行交流,也欢迎大家拍砖和来扰,一起学习一起进步!也希望能够在帮助到大家! 系列文章会涉及到的内容 0.MaxCompute概述:是什么?可以做什么?收费模式? 1.数据上云工具介绍:Log.Logstash.Flume.Flu

SQL Server 数据库优化_MsSql

在开发工具.数据库设计.应用程序的结构.查询设计.接口选择等方面有多种选择,这取决于特定的应用需求以及开发队伍的技能.本文以SQL Server为例,从后台数据库的角度讨论应用程序性能优化技巧,并且给出了一些有益的建议.1 数据库设计 要在良好的SQL Server方案中实现最优的性能,最关键的是要有1个很好的数据库设计方案.在实际工作中,许多SQL Server方案往往是由于数据库设计得不好导致性能很差.所以,要实现良好的数据库设计就必须考虑这些问题. 1.1 逻辑库规范化问题 一般来说,逻辑

SQL Server 数据库优化

设计1个应用系统似乎并不难,但是要想使系统达到最优化的性能并不是一件容易的事. 在开发工具.数据库设计.应用程序的结构.查询设计.接口选择等方面有多种选择,这取决于特定的应用需求以及开发队伍的技能.本文以SQL Server为例,从后台数据库的角度讨论应用程序性能优化技巧,并且给出了一些有益的建议. 1 数据库设计 要在良好的SQL Server方案中实现最优的性能,最关键的是要有1个很好的数据库设计方案.在实际工作中,许多SQL Server方案往往是由于数据库设计得不好导致性能很差.所以,要