美团数据仓库的演进

美团数据仓库的演进

shdiao · 2013-12-05 20:44

美团数据仓库,在过去的两年中,与我们的业务一起高速发展。在这一演进过程中,有很多值得总结和沉淀的内容。这篇文档回顾下美团数据仓库这两年发展过程中遇到的各种问题,为什么选择了现在的技术方案,每一个功能和模块是在什么情况下产生的,解决的是什么问题,中间有过哪些弯路。既可以作为大家熟悉美团数据仓库构建过程的一篇文档,也可以作为初次建立数据仓库的参考。

史前时代

在正式建设美团数据仓库之前,数据组也为各部门提供数据支持,不过那个时候的数据需求还比较少,而且也相对简单。
通常的做法是:

  • 工程师写一段PHP或者Shell脚本,从命令行输入参数。
  • 自己连接数据库,通常是一个业务数据库的从库,将需要的原始数据提取出来。
  • 在内存中计算数据。
  • 然后将结果写入一个专门存放统计结果的DB。
  • 再写一个PHP页面作为报表提供给需求方。

这是简单明了的流程,但是随着需求的增加和精细化,有一些问题变得很棘手,并严重影响的开发效率:

  • 有很多重复劳动和代码,比如连接数据库的代码,每个人都要写,各种写法不同,分布在很多地方,如果哪个DB的连接方法变更了,需要更改很多地方。
  • 中间数据缺失,中间计算结果不能共享。比如每个Deal每天的销量,不同的人写报表,每人都可能要重算一次。
  • 很难管理和维护,程序语言五花八门,同一指标可以写多种统计方法,各种语言各种执行方式,缺少文档,其他人很难接手维护。
  • 数据的清洗和转换没有统一方法,比如,哪天是每月第一天或每周第几天这种需求,靠手工调用各种时间函数来计算,非常容易出错。
  • 不同数据源的数据很难综合使用, 比如一个数 据需要使用主站的数据和合同系统的数据, 要把这些数据组织在一起就很麻烦
  • 为了解决这些问题,在2011年Q2初,数据组开始搭建美团的数据仓库。

引入ETL

数据仓库的学术定义有很多版本和特点,其中有几个词能概括这一段工作的特点,规范和集成。
首先需要建立一个DB用于保存从各个数据源提取出来的数据。

  • 第一,解决不同数据源的数据联合使用的问题。
  • 第二,因为是独立的DB,可以进行复杂的计算而不用考虑会影响线上个系统的DB。
  • 第三,可以保留大量需要重复使用的中间数据。
  • 第四,数据在首次进入数据仓库时,就可以进行清洗整理,去掉无效数据和脏数据,添加常用字段比如 datekey。

这一时间的一个重要工作是,引入了一个工具——ETL。ETL是Extract(抽取),Transform(转换),Load(载入)的首字母组合。顾名思义,ETL工具的功能就是抽取数据,经过加工后,再载入到新的位置。
ETL的优点是:

  • 封装了到各个数据库的连接,使得工程师只需要关注数据的抽取和转换逻辑,而不必处理各种数据库的连接细节。
  • 将数据抽取和转换统一使用SQL来表示,形式化的统一使得理解处理过程变的简单,便于不同的人协作开发,同时,用SQL表示逻辑将各种复杂的统计交给关系数据库来处理,也降低了出错的可能性。数据抽取的过程中同时完成各种清洗和转换,替换空值,规范时间表示等。

这一时间也同时确定了很多规范:
用数据表示逻辑,典型例子是,不再使用各种时间函数来计算时间,而是建立一个日期表,把某一天的各种信息属性全部算出来存在一张表里,需要的时候只要连表就可以得到。大大降低了时间逻辑出错的可能性并简化了开发。
将数据分为维度数据,事实数据,衍生数据,聚合数据等类型, 以及第一版的命名规范。 为后续数据的组织和管理奠定了基础。
数据仓库的基础数据建设,一直是数据组的一个主要工作,直到2011年Q4,随着各种数据需求的增加,在如何使用数据上,有了一些新想法。

尝试OLAP

要做数据仓库,而不是数据坟墓,数据如果不被使用,就毫无用处。怎么能供各部门更好的使用这些数据呢?我们要做平台,可供人去探索数据的平台。
2011年下半年,随着美团业务的高速发展,用数据支撑运营变得越来越重要,各种数据需求出现了一个井喷期,开发人手比较少,一时间有些捉襟见肘。
有没有方法能让需求方自助的获取数据,而不依赖RD呢,想到了一个非常流行的概念是OLAP——联机分析处理(相对于OLTP——联机事务处理),目标是做成一个自助探索工具的平台。
从2011年Q4开始到2012Q1,数据组开始调研试用开源的OLAP工具套件。耗时较长,从调研和最后试用的情况看,现有的OLAP系统不适合我们。
有几个主要的问题:

  • 开发和使用太复杂,成本太高。
  • 产品成熟度较低,很多数据需求没法支持。
  • 笨重,不太适应互联网公司快速灵活的节奏。
    因为上述原因,到2012Q1, 放弃了OLAP的尝试。
    同时在这个时间点上,公司对数据需求的增长,暴露出了数据仓库的很多问题,可以说是需求走在了技术的前面,迫使我们集中力量做很多大规模的升级。

数据仓库是一套完整的环境

2012Q1时,数据仓库出现了很多新的棘手的问题。

  • 首先,有哪些流程在线我们不清楚,什么时间执行的,有没有按时执行不清楚。报表出了问题要查流程历史记录都很难查。
  • 其次,我们已经有了几百个ETL流程,流程之间有执行顺序的依赖关系,但是没有好的工具来管理,靠crontab里设定执行时间间隔。经常出现上游还没有算完,下游就启动了,会出现脏数据。另一方面,并行开发太多,一个人的修改,不知道会不会影响别人,经常出现冲突。
  • 第三,每次都用PHP手写报表,重复工作太多,开发上线都非常复杂。
  • 第四,数据表和指标很多,命名不规范,经常会遇到两个相近概念的比较问题,解释起来非常麻烦,需要遍历整个计算过程才能梳理清楚。

针对这些问题,分别开发了相应的工具。

  • 第一个是流程的注册,管理,查看的工具,每个流程都有了户口本和行为记录。
  • 第二,写工具分析流程之间的依赖关系,画出关系图。
  • 第三,开发调度系统,根据关系图调度ETL流程执行。
  • 第四,抽象报表工具,屏蔽复杂的报表页面开发,将报表抽象为SQL和配置。
  • 第五,建立数据字典,解释每个指标和名词的意思和计算过程。
    通过这几项主要工作,美团数据仓库发展到了一个比较成熟的阶段。也正是经历了这样一个过程,我们深刻体会到,数据仓库不仅仅是一个“数据存储的工具”, 数据仓库应该是一套完整的软件环境,它应该包括:数据抽取,计算,存储,查询,展示,以及管理这些过程的工具。

协作开放

美团的数据需求发展非常快,这体现在数据规模的增长,数据分析人员的增长,数据分析复杂程度的增长。2012年下半年,快速发展的数据需求让原有的数据仓库架构达到了瓶颈。无论是DB的计算和存储能力,还是开发人员的精力,都达到了很高的负荷。而且由于开发流程和提取数据的重复劳动很多,团队士气也比较低落。这一时间的迫切工作是,如何能让需求方自助获取数据并分析,如何能让数据的计算和存储方便的扩展。
从2012年中开始,重点推进了几项工作以解决上述问题:

  • 第一,建设主题表,将各种数据按照常用的维度展开成宽达几十列上百列的表,使得查数据非常的容易。比如,将一个城市一天的几百个指标放在一行,以城市id和日期作为主键,不用任何连表,使用简单的语法就能获取关于城市的各个角度的数据。类似的主题表还有用户,订单,Deal等角度。丰富的主题表不但简化了报表开发, 也为非技术人员能够自助查询数据提供了方便。
  • 第二,开发自助查询工具,培训使用,让各个部门的人都能在数据仓库上查自己需求的数据,培训大家使用SQL,自助完成需求。
  • 第三,建立数据集市,按业务拆分,将部分数据导入到各个不同的DB,供业务部门更灵活的数据需求。
  • 第四,将数据的存储和计算,向Hadoop/Hive 分布式平台迁移,已达到线性扩展计算和存储能力的需求。
  • 第五,开放数据的存储和计算环境,让ETL流程的编写和部署Web化,让其它组有能力的RD,可以自己在数据仓库上部署计算流程,计算自己需要的数据。
    这几个工作的周期都比较长,现在也在进行中,效果也十分明显,终于有和需求并肩走在一起,没有落后的压迫感了。但还没有走在需求前面。

还有很多挑战

美团的成长速度非常快,数据的规模和复杂度还将十倍百倍的增长;业务多样且变化迅速。如何能够在海量数据基础上进行数据的管理、加工、分析以支持快速成长的业务,后续还面临很多挑战。

时间: 2024-09-20 04:11:58

美团数据仓库的演进的相关文章

Apache 基金会宣布 Apache Kylin 成为顶级项目

Apache Kylin 是可扩展到PB规模的开源分布式大数据分析引擎,已被应用在eBay,Exponential, 京东,美团,明略数据,网易及其他公司. 马里兰州 Forest Hill - 2015年12月8日 -由超过350个开源项目及创新计划,全部由开发志愿者,治理志愿者及孵化志愿者组成的 Apache软件基金会(ASF),今天宣布Apache Kylin已经从Apache孵化器项目毕业,正式升级成为顶级项目(TLP),这标志着该项目的社区和产品依照ASF精英管理的流程和原则顺利运作.

美团点评数据库高可用架构的演进与设想

MMM 在2015年之前,美团点评(点评侧)长期使用MMM(Master-Master replication manager for MySQL)做数据库高可用,积累了比较多的经验,也踩了不少坑,可以说MMM在公司数据库高速发展过程中起到了很大的作用. MMM的架构如下: 如上所示,整个MySQL集群提供1个写VIP    (Virtual IP)和N(N>=1)个读VIP提供对外服务.每个MySQL节点均部署有一个Agent(mmm-agent),mmm-agent和mmm-manager保

大数据安全:Hadoop安全模型的演进

敏感信息的安全和保护是当今人们最关心的问题之一.进入大数据时代,很多组织都在从各种源头收 集数据,进行分析,并基于对海量数据集的分析做出决策,因此这一过程中的安全问题变得愈发重要.与 此同时,HIPAA和其他隐私保护法之类的法律法规也要求组织加强对这些数据集的访问控制和隐私限制. 来自内部和外部攻击者的网络安全漏洞与日俱增,通常都要数月之后才能发现,而那些受此影响的人正在 为此付出代价.没能对他们的数据做出恰当访问控制的组织将受到起诉,出现在负面报道中,并将面临监 管机构的罚款. 请想一想下面这

美团点评容器平台HULK的调度系统

本文讲的是美团点评容器平台HULK的调度系统[编者的话]美团点评作为国内最大的O2O平台,业务热度的高峰低谷非常显著且规律,如果遇到节假日或促销活动,流量还会在短时间内出现成倍的增长.过去传统虚拟机的服务运行及部署机制在应对服务快速扩容.缩容需求中存在诸多不足: 资源实例创建慢,需要预先安装好运行所需的环境,比如JDK等. 扩容后的实例,需要经过代码部署流程,一些情况下还需要修改配置后才能承接流量. 资源申请容易回收难,促销活动后做相关资源的回收下线会比较漫长. 由于业务存在典型的高峰低谷,为保

数据仓库架构的变迁

数据仓库架构的变迁 作者 digoal 日期 2016-11-10 标签 Greenplum , HAWQ , PostgreSQL , MPP , OLAP , HDFS , Hadoop 背景 本文是HashData发表的关于Greenplum, HAWQ的文章,内容很丰富,向作者致敬,收藏. HashData是原pivotal HAWQ的开发团队出去创业创办的大数据产品公司. 转自 https://segmentfault.com/a/1190000007419222?from=group

在新美大“创业”:KTV预定业务演进之路

我们戏称KTV业务部是点评公司内的小"创业公司",加入KTV事业部一年来,我们也像一个初创团队一样,从0开始,基本完成了KTV预订业务第一个阶段的探索. 今天从业务角度上对KTV预订的流程,以及我们在KTV预订流程发展过程中的探索给大家做一下介绍.今天的介绍主要分为如下几个大块: KTV预订业务基本介绍 KTV预订展示侧的抽象 KTV订单模型的演变 KTV预订流程的演变 KTV预订业务基本介绍 一个完整的KTV预订流程如上图所示: 用户从商户列表中找到目标KTV: 进入商户详情页后,在

Hadoop+数据仓库到底是梦幻组合还是命中的宿敌?

想一想数据管理世界中的那个伟大的存在–数据仓库吧.在过去的二十年中,尽管其他的系统和软件在许许多多的迭代.变革中演进,甚至完全被新模型所抛弃,数据仓库这个老骨干却安然屹立.她可能会偷偷地给自己的面颊,皱纹整容,也可能会激起一些不那么令人深刻的模仿,但是没有什么能长期的吸引她的注意力. 直到现在.自从Hadoop出现在舞台上之后,一直有人嘀咕说,这个闪亮的新星正在为一些最好的数据管理角色提供服务–这些角色就是,在几年前,数据仓库已稳操胜券. 但是现在真的到了数据仓库要退休的时候了吗?Hadoop甚

余额宝技术架构及演进

导读:余额宝开启了划时代的意义,开启了全民理财时代.上个月微博商业产品部联合天弘基金等金融技术团队策划了首届互联网金融系统沙龙,围绕在互联网金融过程中碰到技术架构问题与业界展开分享及交流.本文是陈雨在沙龙上的演讲,授权高可用架构首发. 余额宝总结起来包括这样几个属性,第一它是一个传统的货币基金,但它把 T + 0 做到极致,另外他管理大量的用户资产.同时他具备极简的用户体验,符合互联网精神.我们在网页.支付宝 APP 或者其他途径能快速方便的进行基金申赎,它的应用渠道也非常多和广. 可以说从余额

各大互联网公司架构演进之路汇总

各大互联网公司架构演进之路汇总 大型网站架构演化历程 大型网站架构技术一览 Web 支付宝和蚂蚁花呗的技术架构及实践 支付宝的高可用与容灾架构演进 聚划算架构演进和系统优化 (视频+PPT) 淘宝交易系统演进之路 (专访) 淘宝数据魔方技术架构解析 淘宝技术发展历程和架构经验分享(视频+PPT)(2.3日更新) 高德--快速转型时期的稳定性架构实践(视频+PPT)(2.3日更新) 秒杀系统架构分析与实战 腾讯社区搜索架构演进(视频+PPT) 京东峰值系统设计 京东咚咚架构演进 新浪微博平台架构