MaxCompute最佳实践

                       从“步枪”到“机关枪”
                                ---不同体系数据仓库架构的心路思考
    步枪单打能力很强,远程射杀敌人,面对一对一或远程一对少均可应付,然而当敌人近身、面对多数时,步枪的威力远不如机关枪,近处大面积杀伤敌人远比步枪强很多。传统体系架构的数据仓库即关系型数据库加小机的体系架构犹如步枪,面对少量数据,后台小批量处理能力很强;但当面对大数据且要求处理提速时就不如分布式的MaxCompute了,尤其是面对海量数据(百TB以上),MaxCompute就犹如面对大量近敌的机关枪啦,机关枪单位时间内处理的子弹(数据)要比步枪多很多,处理效果明显得多。
   建设数据仓库或者说数据中心首要的是数据采集,即获取子弹,无论传统关系型数据库架构的数据仓库还是采用MaxCompute构建的数据仓库都需要特定规格的子弹,即数据都需要符合特定的格式,不能任意选取;如果工厂出产的弹药不符合规格,需要首先进行转换才能应用。如果用户突然手拿一些弹药(数据)要求直接压入弹仓,步枪反而灵活一些;最近笔者亲身经历客户手拿5G数据要求导入数据仓库,换做关系型数据库如Db2、Oracle应当是比较简单的事情,而MaxCompute需要将文件拆分成小文件,因每次上传是有大小要求的。
   海量数据加工处理当然是MaxCompute的优势,抗战电影中的歪把子机枪突突一分钟,消耗500多发子弹,步枪无论如何也达不到这个速度;当然用机枪点射不如步枪效果好。传统数据仓库数据加工一般采用多层次结构,目的是用空间换时间提升数据处理效率;而MaxCompute拥有强大的海量数据处理能力,但并不意味着不要层次,直接应用采集的原始数据无异于没有构建数据仓库,类似直接访问业务库的镜像、快照,犹如又回到了数据库系统的原始阶段,因此必要的分层加工还是必要的。例如本人遇到的一个业务系统是商品交易网站的后台数仓,从业务数据库同步而来的用户数据、商品销售数据、派送信息、库存信息,如果不进行必要的加工汇总,每次从这些离散的数据表提取信息显然是不可取的,不仅每次多表关联消耗资源而且难以保证数据结果的质量。
   诚然,面对海量数据的处理使用机关枪(MaxCompute)很爽、很痛快,不用担心数据处理能力不足的问题,再加上有专职的“机枪”维护人员,系统的维护也不用担心;完善的调度流程管理不用担心调度系统无缘无故的挂起;但同时也意味着失去了一些灵活性。做数据仓库系统久远了,面对的数据处理“五花八门”,尤其是“紧急情况下”的异常处理,如发现数据不正常,直接删除数据或是更新数据,MaxCompute是很不“配合”的,对于习惯关系型数据库操作的“资深人士”来说,是很不适应的;当然这样做的目的也是规范的一种,当不规范成为习惯且认为是理所当然时是非常遗憾的事儿。

MaxCompute尽管还有这样、那样的问题,还有这样、那样的不习惯,但面对当今的海量数据仓库的建设不乏是最优的选择之一,因为它的方便、因为它的易用、因为它的简单……
数据仓库的建设伴随着MaxCompute走下去……

时间: 2024-09-17 03:37:29

MaxCompute最佳实践的相关文章

阿里云「MaxCompute最佳实践」征文大赛获奖文章公布

DT时代,越来越多的企业应用数据步入云端.与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.比如东润环能在3个月内业务全面交付云端,数据处理时间不到原来自建方式的1/3,并确保云上数据安全无忧.墨迹天气日志分析业务迁移到数加MaxCompute后,开发效率提升了超过5倍,存储和计算费用节省了70%,每天处理分析2TB的日志数据,更高效的赋能其个性

万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛

DT时代,越来越多的企业应用数据步入云端.与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全. 比如东润环能在3个月内业务全面交付云端,数据处理时间不到原来自建方式的1/3,并确保云上数据安全无忧.墨迹天气日志分析业务迁移到数加MaxCompute后,开发效率提升了超过5倍,存储和计算费用节省了70%,每天处理分析2TB的日志数据,更高效的赋能其个

帮助企业做好MaxCompute大数据平台成本优化的最佳实践

阿里云大数据计算服务MaxCompute通过灵活性.简单性和创新为您企业的业务环境带来了变革,但是您企业是否通过其实现了原本预期的节省成本的目标呢?本文中,我们将为广大读者诸君介绍优化您企业MaxCompute开销的一些关键性的策略. 自从MaxCompute于2010年进入市场以来,计算服务MaxCompute就已然永远地改变了整个IT世界了.尽管其价格优势已经领先业界了,但仍然有许多企业客户了解到,迁移到公共云服务并不总是能够帮助他们实现预期的成本节约的目标. 这并不意味着迁移到公共云服务是

MaxCompute多团队协同数据开发项目管理最佳实践

MaxCompute多项目管理最佳实践 背景介绍: 厦门美柚科技有限公司,创始于2013年4月,是一家专注为女性服务的互联网公司.秉承"让女人更美更健康"的理念,美柚以经期管理为切入点,为女性提供备孕.怀孕.育儿.社区交流等功能服务.目前,美柚用户超过1亿,日活跃用户近千万,拥有约160个高活跃的女性话题圈,社区内用户日均互动量超500万帖,日均浏览量超过1.8亿次.之前各种数据开发.数据支持.数据挖掘都在同一个项目中,随着公司业务线的不断扩充,规模的不断壮大,参与大数据开发的部门(团

PgSQL · 最佳实践 · 从 MaxCompute (ODPS) 迁移数据到 HybridDB

title: PgSQL · 最佳实践 · 从 ODPS 迁移数据到 HybridDB author: 曾文旌(义从) 背景 最近,不少用户在尝试使用 HybridDB 的过程中,询问我们如何把之前在 ODPS 中的数据迁移到 HybridDB.今天就跟大家介绍一种效率较高的方法. 一:原理 ODPS 和 HybridDB 都是多数据节点组合成的集群架构,这样的架构如果要做到效率较高的数据吞吐,需要驱动数据节点主动推送数据.幸运的是 ODPS 和 HybridDB 都支持用该方式向 OSS 读写

解读数据传输DTS技术架构及最佳实践

摘要:8月24日,阿里云数据库技术峰会到来,本次技术峰会邀请到了阿里集团和阿里云数据库老司机们,为大家分享了一线数据库实践经验和技术干货.在本次峰会上,阿里巴巴高级技术专家付大超(千震)针对于云计算时代最好的数据传输产品阿里云DTS的架构设计.基本原理以及相关的应用场景进行了精彩分享.帮助大家了解了阿里是如何实现异地多活和异构多活的,以及通过DTS轻松实现迁移.双同同步.容灾.订阅的真实案例. 以下内容根据演讲嘉宾现场视频以及PPT整理而成. 本次分享的内容主要围绕以下四个部分: 一.DTS技术

PyODPS开发中的最佳实践

PyODPS 支持用 Python 来对 MaxCompute 对象进行操作,它提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,并且可以用 ml 模块来执行机器学习算法. 现在为了让大家能更好地使用 PyODPS,我们总结开发过程中的最佳实践,来让大家更高效地开发 PyODPS 程序.当然,希望大家能一起来帮助我们来完善总结. 注:公共云由于未支持 Python UDF,因此本文中提到的自定义函数功能包括 apply 和 map_reduce 等功

经典网络迁移VPC最佳实践

摘要:阿里云起步于经典网络,但已经全面转向VPC.专有网络VPC以其在安全.成本和网络功能方面的优势,正受到越来越多用户的欢迎.在9月6日技术直播中,阿里云高级产品专家谭礼铨(李泉)为大家分享了经典网络迁移VPC最佳实践,本次分享介绍三种将ECS从经典网络迁移至VPC网络的途径,并阐述三种类型的迁移分别适合怎样的客户需求和场景. 直播回顾视频地址:https://yq.aliyun.com/webinar/play/287 9月21日,2017阿里云网络技术高峰论坛将独家线上直播,欢迎预约:ht

DMS前后端技术揭秘及最佳实践

不同于一般的存储和计算产品,云上DMS上属于操作类产品,目的是为用户提供更高更强的数据库访问能力,减少成本以提高效率.本文中,来自阿里巴巴数据库事业部的钟隐分享<DMS前后端技术揭秘及最佳实践>,介绍云上DMS,即数据库管理服务的整体应用和实践. DMS最佳实践 云上DMS从2013年年底上线,从最初仅支持MySQL基本功能,已覆盖了多种RDBMS.NoSQL及部分分析型数据库在内的13种数据源,同时在多种数据库中逐步提供了传统数据库软件所不具有的专业功能,时间有限,我们仅列举4个不同角度的最