数加DataWorks/MaxCompute在国网浙江电力的最佳实践

摘要:2017云栖大会dataworks专场,国网浙江电力大数据平台架构师陈振带来Dataworks/MaxCompute在国网应用的实践。本文主要从建设数据仓库的三个痛点开始谈起,引出企业级数仓架构设计,着重通过数据集成和企业级管理为大家分享了具体的应用情况,最后作了简要的展望。

 

以下是精彩内容整理:

背景&动机

由于长期业务系统的竖井式发展,导致业务系统中数据存储分散,当你要进行多个业务系统中数据的联合统计场景时,我们通常不得不汇总三到四个以上的业务系统数据,久而久之就会在数据中心里形成一张非常复杂的数据集成网络,由于业务系统给出的接口非常老旧,导致在数据集成网络中涉及到的技术手段又非常多,总共这三大痛点给我们数据中心管理带来非常大的困难。

所以,我们开始思考,为什么不把全部的业务数据放到统一的数据仓库中去呢?为了进行数据的统计分析,不得不建设复杂的数据集成网络,那么,为什么不把统计和计算放到企业级数仓中去呢?既然我们的数据源端技术手段那么多,为什么我们不把企业级数仓建设成一个能够兼容多种数据源的企业级数仓呢?

我们想要企业级数仓具备比较高的时效性,因为我们的数据最终面向不特定的业务场景,它的后端需求是在不断变化的;其次,我们需要企业级数仓具备企业级管理能力,这必定会成为公司的多人协作平台,如果不具备企业级管理能力,就无法实现多人协作;最后,我们需要有灵活的数据输出,企业级数仓的数据必须能够合理赋能给我们业务团队。

 

架构设计

基于以上需求,我们开展了企业级数据仓库架构设计,最后,我们设计出了如图的数据仓库。我们的数仓符合一般的数仓技术架构,数据从多种数据源出来,被数据集成框架输入到两条路径中,上面一条路径比较慢,下面一条路径比较快,快路径数据输入到HBase中,慢路径数据输入到MaxCompute中,我们会把慢数据中全部业务数据都放到数据仓库中,快路径主要接入一些电力传输网络上的传感器发送过来的数据,这部分数据实时性比较高,MaxCompute和HBase中数据经过统计和分析之后,产生的结果数据通过数据输出链路传输给RDS、ADS实例,由它们作为企业级数仓数据输出端口。

在这一整套技术架构里面,数据在里面成功流转的关键在于两方面。一方面是数据集成、数据处理和数据输出三条链路的驱动;一方面是MaxCompute中四层企业级管理。那么,我们到底是怎样做的呢?

 

数据集成

数据集成作为把守企业级数仓的数据输入端,最终决定了数据仓库保有的信息量,也决定了数据最后表现出来的最终形态。由于我们是面向全公司的所有数据业务集成,始终面对着变化的数据源,数据集成架构必须要满足不同业务、不同数据源的数据输出方式的架构。我们有很多中集成方式,包括批式集成、流式集成、局部增量集成、流转批、流转局部增量、流转拉链表。

批式集成会在每个数据集成周期开始时候把源库中原表的最新快照复制到目标库中,并且把最新快照加入到目标表的最新的时间分区中,这个目标表的时间分区是按照接入这一刻的时间点进行划分的。

这种数据集成方式使用数加CDP即可完成,优缺点很明显,优点是结构简单,兼容性好,易排错,自带ETL;缺点是源端压力大,CDP自带限速光环,目标端存储效率低。批式集成方式一般用于小表、维度表、主数据表。

为了弥补批式集成的空白,我们设计了一种局部增量数据集成。这种集成方式在原表中行为与批式集成一样,只不过它将原表最新快照复制过来不是马上插入到目标表中,而是把它存为一张中间表,中间表中我们会过滤出每天最新部分数据,按照这部分数据业务时间插入到目标表对应的时间分区里面,这里目标表的时间分区不是按照集成时刻进行划分的,而是按照表里面每一条业务数据的业务时间进行划分的。

这种数据集成方式保证了每一条数据都不会被重复存储,优点是update友好,目标端存储效率高;缺点是要求主键,依赖Timestamp,需设置自依赖,丢失历史信息。适用于有明确业务周期、有良好Timestamp的大表,并且确实考虑到目标端存储效率的表。

除了以上两种集成方式,还有其他集成方式,这些方式都不是凭空产生的,我们都是通过四个不同的参数来描述,这四个参数都是可以根据实际数据情况自由配置的。我们要满足一些关系保证数据集成链路运行过程中信息量不会丢失,比如Fr ≤ Wr , Fw ≤ Ww, Fr ≤ Fw,Fr 、Wr根据业务属性设计,Fw、Ww根据时效性需求设计,Fr < Fw,则存在数据积累,需中间表,Wr < Ww,则存在历史数据归并,需自依赖。

 

企业级管理

企业级管理在一般数仓中是不用去考虑的,但是我们汇总的是全公司全部数据,一旦这些数据进入到仓库中,我们就把其看成是一种生产资料,围绕着生产资料,必定会有很多人协同进行数据管理、运维、处理和使用,我们需要数据仓库的组织账号管理,也要有数据仓库中资源数据权限隔离,还要有专人运维和数据服务发布。

账号组织管理

组织账号管理是管理项目和人。对应数加中的两层账号体系,一是主账号,对应项目,用于项目资源分配、成本核算、赋权;一是子帐号,对应人,用于行为审计。我们又把项目分为两大类,一类是超级项目:数据服务团队,维护公共数据(数据集成、ODS、BW);一类是一般项目:业务项目团队,生产特定业务口径数据(DM)。

权限管理

权限管理管理对象为资源权限和数据权限。我们从横向、纵向两方面管理,横向隔离业务项目 <-> 业务项目,纵向隔离开发项目 <-> 生产项目。从资源策略上讲,纵向隔离、横向归并。从数据策略说,横向纵向两个维度都会隔离。如果要打破隔离,需要进行数据授权,表授权使用DataWorks IDE,横向行授权通过视图 + 物化过程,纵向行据授权通过数据采样与脱敏。

运维

运维主要分成四大块,具体如下:

1.         任务管理:多种类型任务的定义,任务编排,虚节点的使用;

2.         任务测试:单任务测试,任务树测试(补数据),忌:直接在开发窗口测试任务;

3.         任务发布:专人审核发布,开发生产依赖解耦;

4.         任务监控:多类型任务统一监控,批量控制,任务异常告警,时间基线告警,计数基线告警。

数据服务发布

数据服务是数据仓库的生命力所在,我们成立了数据服务团队“经营”数据仓库“超级项目”。包括:

1.        
准备环节:业务需求调研,技术需求调研,数据接入,数据整理,数据分级,业务模型整理,标准服务目录整理

2.        
售前环节:项目接洽,业务范围、组织范围、时间范围敲定,技术方案敲定,集成需求确认

3.        
售中环节:数据补接,数据授权,基础资源准备,数据交付,业务上线

4.        
售后环节:数据集成链路运维,数据处理任务运维,数据共享,数据资产升级

 

期望与展望

我们希望在以下方面进行优化和升级:

1.         基础技术层面:我们期望可以驱动更多底层引擎,提供更多技术选项。这会涉及到不同处理引擎间迁移数据,我们可以通过一系列自动配置数据集成链路来处理不同数据处理引擎间的数据交互。

2.         数据处理层面:我们需要解决数据处理任务从慢到快的过程,增量过滤条件上推,全增量处理,规范源端时间标记,全链路维护时间戳,优化增量数据处理性能。

3.         数据服务:加强数据服务发布工具研发,优化数据使用体验,包括数据服务目录发布,自动分级、脱敏,链路异常告警广播等。

欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号: 11782920)进行咨询,群二维码如下:

 

阿里巴巴大数据-玩家社区 /

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

时间: 2024-10-25 15:21:41

数加DataWorks/MaxCompute在国网浙江电力的最佳实践的相关文章

国网浙江电力组建网络安全分析室

9月1日,国网浙江省电力公司网络安全分析室正式成立,依托内外网安全可视化系统进行多信息源整合展现,实现对网络与信息安全的全天候.全方位感知. 国网浙江电力从今年4月开始筹建网络安全分析室,从技术装备和分析平台两方面进行技术装备加固补强,逐步构建完善的技术防御体系.在技术装备上,APT威胁分析系统可精确检测通过网页.电子邮件或文件共享方式试图进入内部网络的恶意软件,包括零日攻击及具有抗检测能力的高级恶意软件,有效遏制由此带来的敏感信息泄露等风险:完善数据防泄露系统拦截策略,结合电力行业的现状和长期

国网四川电力应用大数据服务经济社会发展

3月24日,国网四川省电力公司结合全业务统一数据中心应用场景建设,与生产经营专业密切协作,积极开展大数据分析应用,取得了显著成效. 在电力服务经济方面,大数据分析发挥了重要作用.目前,国网四川电力已初步总结出了电力景气指数分析.经济周期与行业特征分析.城市负荷热点及潮汐流动等三个方面的指标.通过对这三方面尤其是电力景气指数的分析,实现了电力视角看经济,有助于更好地服务经济社会发展. 国网四川电力通过分析电力景气指数,掌握各行各业的用电规律,挖掘各种经济环境下的售电业务机遇,更好地调配企业资源,精

国网河南电力探索建设能源大数据中心

6月12日获悉,为贯彻落实国务院发布的<促进大数据发展行动纲要>精神,响应河南省发改委2月份印发的<河南省大数据产业发展引导目录>指导意见,国网河南省电力公司组织相关单位和专家主动探索能源大数据中心建设,编制了建设方案. 建设方案借鉴国网河南电力全业务统一数据中心建设经验,结合能源行业特殊性质,提出了在政府统一领导和协调下,以电力.煤炭.石油等能源数据为基础,秉承"大规划.重数据.辅决策.促发展"建设理念,坚持"短期见成效.长期建机制"的管理

国网北京电力公司正式推出掌上电力手机客户端试用服务

从昨天起,国网北京电力公司正式推出"掌上电力" 手机 客户端试用服务,所有家里用智能电表的市民通过手机就可以购电.查询用电量等. 市民足不出户就可手机买电 国网北京市电力公司昨天召开发布会,宣布推出多项供电服务新举措.其中"掌上电力"手机客户端是一个新的电力服务渠道.该手机客户端支持Android.IOS两种主流手机 操作系统 客户下载使用,可为客户提供便利的用电查询.支付购电.网点导航.停电公告.信息订阅.在线客服.知识查询等多项服务功能. 记者昨天试用该软件发现

帮助企业做好MaxCompute大数据平台成本优化的最佳实践

阿里云大数据计算服务MaxCompute通过灵活性.简单性和创新为您企业的业务环境带来了变革,但是您企业是否通过其实现了原本预期的节省成本的目标呢?本文中,我们将为广大读者诸君介绍优化您企业MaxCompute开销的一些关键性的策略. 自从MaxCompute于2010年进入市场以来,计算服务MaxCompute就已然永远地改变了整个IT世界了.尽管其价格优势已经领先业界了,但仍然有许多企业客户了解到,迁移到公共云服务并不总是能够帮助他们实现预期的成本节约的目标. 这并不意味着迁移到公共云服务是

MaxCompute多团队协同数据开发项目管理最佳实践

MaxCompute多项目管理最佳实践 背景介绍: 厦门美柚科技有限公司,创始于2013年4月,是一家专注为女性服务的互联网公司.秉承"让女人更美更健康"的理念,美柚以经期管理为切入点,为女性提供备孕.怀孕.育儿.社区交流等功能服务.目前,美柚用户超过1亿,日活跃用户近千万,拥有约160个高活跃的女性话题圈,社区内用户日均互动量超500万帖,日均浏览量超过1.8亿次.之前各种数据开发.数据支持.数据挖掘都在同一个项目中,随着公司业务线的不断扩充,规模的不断壮大,参与大数据开发的部门(团

阿里云数加平台对物联网数据的实时流式分析实践--设备监控应用

前言   阿里云在物联网提供整体的解决方案,包括IoT套件.大数据分析两个场景,解决了数据上云和数据分析的各种问题,如设备入网安全.数据转发.实时分析.离线分析模型等一整套链路贯通的智能方案.   本文以一个设备的监控的例子选择一个链路的实践,目的是演示联物网在阿里云的最上手的实践. 总体框架  通用的物联网解决方案,分为两个大的方面:设备数据上云.云上数据分析.大数据的部分可以通过MaxCompute建立和训练数据模型,应用用于实时数据,比如设备故障预测.          图中较为全面的抽象

VPC内网服务可用性监控最佳实践

应用场景 随着越来越多的用户从经典网络迁移到更安全.更可靠的VPC网络环境,如何监控VPC内部服务是否正常响应就成为需要关注的问题.下面通过具体案例说明如何监控VPC内ECS上的服务是否可用.VPC内ECS到RDS.Redis的连通性如何.VPC内SLB是否正常响应. 原理说明 首先需要您在服务器上安装云监控插件,然后通过控制台配置监控任务,选择已安装插件的机器作为探测源,并配置需要探测的目标URL或端口.完成配置后,作为探测源的机器会通过插件每分钟发送一个HTTP请求或Telnet请求到目标U

网鱼网咖-利用数加快速搭建大数据平台,极致洞察,为客户带来从所未有的体验。

免费开通大数据服务:https://www.aliyun.com/product/odps "令人惊喜的是,利用阿里云的数加平台,我们差不多一个多月就搭建好了大数据平台,并且可以通过图形化的界面快速的开发,几个开发人员很快的掌握,甚至我们把阿里云的开发端给了业务部门,他们一些稍微资深一点的业务人员也可以使用,所以我们初步估计了一下,给我们节省的价值至少是千万级的."--网鱼网咖CTO楚发 关于网鱼网咖 网鱼网咖成立于1998年,致力于打造多人游戏空间,为顾客提供极致的游戏上网体验.网鱼