阿里云高级技术专家李金波:我们该如何做好一个数据仓库?

首届阿里巴巴在线技术峰会(Alibaba Online Technology Summit),将于7月19日-21日 20:00-21:30 在线举办。本次峰会邀请到阿里集团9位技术大V,分享电商架构、安全、数据处理、数据库、多应用部署、互动技术、Docker持续交付与微服务等一线实战经验,解读最新技术在阿里集团的应用实践。

本次峰会全部开放,免费注册,3天夜间技术交流、每场1.5小时深度分享、长时间互动答疑、素材第一时间公开、用户组同步搭建, 我们希望搭建起业内开发者与阿里技术专家在线交流分享的平台,构建更加开放和共享的技术生态!

阿里巴巴在线技术峰会专题:
峰会统一报名链接:



介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。

与阿里云大数据数仓结缘

介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构。2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop。

初始时在Hadoop平台上构建数仓主要解决企业内部数据分析的需求,在2010年公司决定对外开放数据后,开始于2011年利用自建的数仓体系支持对外数据产品数据魔方、淘宝指数。后续在平台和产品上不停的丰富数据内容,同时离线和流式两套数据体系支持数据产品。

从2012年开始,之前在Hadoop上的数据体系搬迁到阿里资源的分布式计算平台ODPS,并完成了数据体系的重构,此时介然负责平台基础数据的建设支持全集团的上层数据应用。在2014年之后,公司开始对外服务,开始研究数据服务化和帮助外部用户如何利用阿里的平台实现大数据应用。

数仓上遇到的挑战:数据质量保障、稳定和重复性

在数据魔方、淘宝指数和阿里大数据数仓解决方案设计中,介然遇到了不少有挑战性的技术问题,主要集中在以下三点:

1.数据质量保障:随着业务的复杂度增加,数据源头的类型和数据量也会越来越多,经常会碰到某些数据源因为一些偶发的原因同步过来的数据质量出现问题。比如日志出现乱码、数据库因为切库造成数据同步量变少等等。这就要求在整个数仓体系的搭建过程中不只要完成数据业务逻辑的处理,还需要增加数据质量的监控。“我们在核心的数据处理流程中,增加数据质量监控代码,如果碰到数据量的突变或者核心指标的突变,会将数据处理流程暂停并预警,让数据运维人员处理数据质量问题后再进行后续数据流程的运行,保障有质量问题的数据不流到下游应用中。”

2.数据产出稳定性保障:随着数据量的增加、计算资源的逐渐饱和,业务数据最终产出的时间开始延迟,并有可能不能按照业务要求的时间点产出。“这个时候我们会分析数据产出的关键路径,找出关键路径下消耗时间最多的运行JOB,通过数据模型优化、计算任务拆解或者计算任务代码优化的手段减少任务产出的时间,同时保障整体产出时间满足预期。”

3.重复的数据处理代码:由于业务的特殊性,会对某种类型的数据加工操作需求非常多。比如计算交易中,TOP N的商家、TOP N 的品牌、TOP N的商品,商家中TOP N的商品、品牌中TOP N的商家等等。 这类代码都是非常类似的,如果每个计算都独立任务,会造成计算资源的大量浪费。“我们通过特殊的代码框架,让一份基础数据中多种TOPN的数据可以在一次计算过程中产出,大大减少资源消耗,保障数据产出稳定。”

优秀数仓的三要素:清晰、保障和扩展性好

介然认为,优秀的数据仓库应该包含以下要素:

1.结构、分层清晰:不一定需要多少个分层和主题,但是一定要清晰。用数据的人能够很快找到需要数据的位置。

2.数据质量和产出时间有保障;

3.扩展性好:不会因为业务的些许变化造成模型的大面积重构。

而从系统架构、数据架构两个纬度来看,要想设计好大数据应用下的数据仓库,还应做到以下两点。

1.系统架构上:足够的容错性,减少不必要的系统间的强耦合。因为你会碰到各种问题,不要因为一个不必要的依赖造成数据无法产出。

2.数据架构上:简单、清晰、强质量控制。数据架构上扁平化的数据处理流程会对数据质量的控制和数据产出的稳定性提供非常好的基础。

互联网人转型做大数据数仓需要注意哪几个点?

对于之前做互联网数据仓库,现在想转型做大数据仓库的人,介然也提了一些建议,主要是四点:

1.不必再苛刻的精打细算:基于传统平台构建数仓时,为了照顾平台的处理能力,我们经常会构建多层数据结构,预先对不同粒度的数据做预先汇总,以方便使用者在使用数据时能够已最小的计算代价获得计算结果。这也造成了整个数据处理流程较长,步骤很多,问题追溯困难。 新的大数据仓库基于分布式计算平台,平台的计算能力通常都比传统的平台强大很多。 所以有时候需要时再计算数据,或者基于明细进行各粒度的数据汇总已经能够满足需求,并能够大大减少整体数据处理流程步骤,用计算的代价减少人工的成本,更划算,数据体系也更健壮。

2.不是模型层次越多越好:在传统的数仓架构中,大家都喜欢多数据模型进行分层设计,不同的模型层次拥有不同的数据域和作用域。这样设计固然看起来更清晰,但实际情况时多层之间可能存在重复数据,或者数据使用者在上层找不到完全切合的数据时,更愿意从底层的明细数据上自己去加工。一方面造成了数据使用上的混乱,一方面也会让数据整个处理流程长度增加,对于数据的运维带来较大的成本消耗。合理的层次设计,及在计算成本和人力成本间的平衡,是一个好的数仓架构的表现。

3.质量是生命线:不再是你拿到的数据都是正确的,新的环境下的数据什么情况都会发生,而好的数仓架构需要有足够的容错性和质量保障。不要因为一条日志的乱码造成整个数据流程无法走通,也不要说一份日志50%的乱码你的程序还发现不了。在数据质量上投入再多的资源都不是浪费。

4.数据变成生产资料:传统的数据应用绝大部分都是以报表和BI分析的形式支持业务。也许你的报表晚出来会被老板骂一通,但是对业务的影响并不大。 但是在新的数据应用场景下,数据已经变成生产资料,数据会服务化直接应用到业务系统中,也许一份数据的质量出现问题或者产出延迟,都可能对你的业务系统产生致命的影响。所以数仓开始承担新的使命。

如果你依然迷惑,欢迎来听听阿里是如何搭建一个好的数据仓库

介然称,本次分享会讲:在大数据的应用场景下,基于新的分布式计算平台的特征如何设计数据仓库。“会从应用需求、平台的特征、模型的设计、产品的应用几个角度来说明如何在阿里大数据平台下搭建一个好的数据仓库。”对于细节,他介绍到。

这位阿里云大数据数仓解决方案总架构师,非常希望大家来听本次分享:“不管你在什么平台上做过数据开发,或者公司开始做大数据应用,只要利用平台支持这个应用,都欢迎来一起讨论。”



7月21日晚8点,将由阿里云高级技术专家李金波分享《企业大数据平台仓库架构建设思路》,下面是本次演讲议题详情。

议题:《企业大数据平台仓库架构建设思路》

议题简介:随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。作为大数据应用的基础-数据仓库,如何利用平台的新特性、如何让企业更好的创建数据应用,这对数据仓库的建设提出了更高的要求。本次分享主要介绍如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。

分享嘉宾:李金波

嘉宾简介:阿里云高级技术专家,8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。现任阿里云大数据数仓解决方案总架构师。

提示:我们正在对李金波进行采访,稍后整理发出。



附图:阿里巴巴在线技术峰会整体议程

峰会统一报名链接:

时间: 2024-12-31 00:32:27

阿里云高级技术专家李金波:我们该如何做好一个数据仓库?的相关文章

专访阿里云高级技术专家吴威:Kafka、Spark和Flink类支持流式计算的软件会越来越流行

杭州·云栖大会将于2016年10月13-16日在云栖小镇举办,在这场标签为互联网.创新.创业的云计算盛宴上,众多行业精英都将在这几天里分享超过450个演讲主题. 为了帮助大家进一步了解这场全球前言技术共振盛会的内容,采访了各个论坛的大咖,以飨读者. 以下为正文: 吴威,阿里云高级技术专家.E-MapReduce产品是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,为用户提供集群.作业.数据等管理的一站式大数据处理分析服务,他在其中参与产品设计讨论.平台性能调优等工作,并为用户提供技

【短视频系列之二】阿里云高级技术专家带你揭秘短视频解决方案

采访对象:王海华,高级技术专家,负责阿里视频云端相关的技术研发. Q:你认为短视频是什么? 我不知道大家对短视频是否有了解?很多人提到短视频会说微信小视频.美拍.秒拍,其实他们是短视频的代表.从更加全面的几个角度来讲,短视频应该是从以下几个纬度来说:适合在移动终端上传播,适合用户在碎片化时间去观看和转发,时间在几秒钟到几分钟之间的一种内容形式. 有几个数据,短视频用户规模1.53亿,2017年会增加到2.5个亿,每天看的时间30分钟之长. 市场上看到的很多直播和社交平台,都加入了短视频功能,可以

阿里云高级专家朱小平:如何打造应对超大流量的负载均衡

大流量高并发互联网应用实践在线峰会官网:https://yq.aliyun.com/activity/112 峰会统一报名链接:http://yq.aliyun.com/webinar/join/49 议题名称:<如何打造应对超大流量的负载均衡> 议题简介:作为一个公网流量的入口,阿里云负载均衡应对超大规模流量的信心是什么?又如何去保持平稳顺滑的运行?为了应对各种大规模的活动,阿里云负载均衡又走了哪些性能调优之路?此次,阿里云高级技术专家将从集群部署.负载均衡高可用框架,流量监控,指标等多个方

专访阿里云高级专家金建明:企业IT管理服务未来将更加智能化、自动化

杭州·云栖大会将于2016年10月13-16日在云栖小镇举办,在这场标签为互联网.创新.创业的云计算盛宴上,众多行业精英都将在这几天里分享超过450个演讲主题. 为了帮助大家进一步了解这场全球前言技术共振盛会的内容,采访了各个论坛的大咖,以飨读者. 以下为正文: 阿里云高级专家金建明 金建明,阿里云高级专家,负责给客户提供上云咨询.迁云实施.一站式管理服务.架构优化.大促护航.2线技术支持等咨询服务及交付工作.拥有十多年IT从业经验,长期从事金融.汽车.零售等行业的IT咨询与服务交付管理等相关工

专访阿里云高级专家赵林:从0到1,中间件的研发运维之路

中间件,英文名为Middleware,它提供应用层和系统层之间连接,是应用层实现系统资源集中调用的抽象逻辑,同时协调各个应用之间的沟通:并且自动处理分布式系统中的常见异常,最终简化大规模分布式应用的编写. 早期的中间件,起源于1968年IBM的CICS(Customer Information Control System )交易事务控制系统,是一个分布式的文件服务用来管理用户信息.伴随着互联网发展和分布式系统的兴起,中间件的概念也在发生演变.在分布式网络环境下,中间件面临更复杂的情况:如何解决

李望:前期如果做好一个淘宝店铺

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 淘宝开店,可以说是一种潮流,也可以说是一种艺术,也可以说是一种职业,淘宝也是一门大学专业! 在搜索宝贝的时候,会显示"所有宝贝""人气宝贝"等等的一些排名,对于新手来说,人气宝贝我们根本不可能会排得上名的,而一般的默认搜索的都是"所有宝贝",所以我们就要好好利用好这个排名的规则,想要

【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理.分享中,李金波主要从总体思路.模型设计.数加架构.数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库. 直播视频: (点击图片查看视频) 幻灯片下载:点此进入 以下为整理内容. 总体思路 随着互联网规模不断的扩大,数据也在爆炸式

“云上超算”的愿景,阿里云高性能、异构计算抢先实现了。

最初见到"超算平民化"的概念是在2009年<纽约时报>网络版刊登的一篇文章: 当时,云计算刚刚兴起,超级计算机开始大量采用标准化硬件架构,这两个趋势让HPC通过云服务的形式来提供计算力的新模式成为可能.在当时看来,"云上超算"并不遥远,其所带来的"超算平民化"亦将带来超算发展的一场新的变革. 在近年的中国TOP100榜单中,有超过半数的超算所从事的都是互联网应用--互联网服务.大数据应用.云计算.电子商务.视频服务等等.相比过去,超算

阿里云高可用-容灾解决方案

这两天,一篇名为<IT之家因无法忍受阿里云而迁移至XX云>的文章引起了整个云计算行业的热议.(袋鼠云CTO江枫还专门写了一篇热评:点击阅读原文.) 从目前得到的信息看,其应该是在青岛区域购买了一台云服务器ECS,基于.net和自建SQL Server,并且应用和数据库跑在同一台云服务器上. IT之家,所有应用都部署在单台ECS上,不具备高可用的特性. 即便阿里云产品本身就有容灾.高可用的特征,但是因为一些用户对阿里云产品的不了解和自身应用架构不够合理,也根本无法使其发挥该优势. 其实,IT之家