阿里巴巴实时数据公共层助力双11直播

  【办公频道11月24日消息】在今年的双十一期间,大家都通过央视新闻看到了现场大屏幕上的数字,相信大家对数字大屏不再陌生,除了现场的媒体外,在阿里巴巴西溪园区的媒体报告厅、总部指挥处等地都会看到它的身影,它在当天完美的呈现在了大家的面前,并且成功的完成了任务,完美谢幕。

  而在这背后的数据计算工作则是有阿里巴巴的数据技术与产品部的实时数据公共层团队抗下了这次的重任,不仅全天24小时做到了不间断后台数据更新,并且有效的保证了数据的准确性。

  而阿里巴巴的实时后台数据不仅用在了这次的双十一直播上,阿里巴巴的实时数据公共层更是用在了阿里巴巴生意相关商家的数据实时直播、广告投放系统实时数据等各方面上。

  那么,我们不禁会问到,数据公共层是什么?而实时数据公共层又是什么呢?

  数据公共层,是基于阿里巴巴内部数据,服务于全集团的基础数据中心,由上文提到的数据技术与产品部搭建起来的。数据公共层由离线数据公共层和实时数据公共层组成,而离线数据公共层即为我们所熟知的传统数据仓库ODS层和DW层。那么实时数据公共层呢?顾名思义,实时可以理解为经过加工清洗后呈现的实时基础数据的公共层。

  数据公共层,是阿里巴巴服务于全集团的基础数据中心,由数据技术与产品部承建。数据公共层分为离线数据公共层和实时数据公共层。离线数据公共层即传统的数据仓库ODS层和DW层,而实时数据公共层顾名思义,可以理解成经过清洗和加工后的“实时”基础数据,能够随时通过数据的转换实时转播呈现在大家眼前部分数据的公共层。

  通过下表展现出来的实时数据公共层的架构相信可以进一步的了解到实时数据公共层的内容和结构。

  实时数据公共层有以下几个特征:

  高性能和可扩展性

  实时数据需要实时计算作为基础和保证,那么实时计算的核心便是基于Storm的实时计算引擎Galaxy和实时调度引擎Gallardo,并且实时数据应用的系统的架构能够含有高性能、横向线性扩展。目前的实时公共层主备计算集群的机器数量已接近2千台。从2012年开始至今,阿里巴巴的实时公共层团队经过了长达3年的技术累计,有用了丰富的实时计算性能优化的经验,在双十一当天产生的订单及支付过程大概约有60亿的变更量。当天0点瞬间订单量超过了每秒7万笔,全天的日志量更是数以亿计。阿里巴巴的实时团队,凭借团队的经验已经阿里实时数据公共层的优秀表现,成功的应对了数百个实时应用秒级响应,快速的响应才能使实时数据更有说服力。

  高可用性和SLA服务保障

  为了使服务的高可用性得到良好的保障,实时数据公共层在各个环节及重要部署地点都做了容灾备份,例如数据源层面,不仅TT提供服务,还另外接入了MetaQ数据源,两个数据源相辅相成,都可以提供订单数据的交换。而在数据计算的层面,实时计算平台Galaxy和HBase也都配有多套的独立提供服务,能够成功的应对出现的问题。而且为了配合容灾备份和容灾保护,OpenAPI能够做到5秒内的接口转换,整个公共层的前端应用透明,这样可以使得整个后台数据反应更加快速,能够使后台数据服务做到高可用。

  平衡高精度和高吞吐量

  对于实时数据而言,最主要的业务有两大方面,一个是交易,一个是日志,能够成功的快速响应,高精准的提供交易数据才能尽可能使每一笔订单都不遗漏,并且对于日志数据来说,则需要拥有高吞吐量,这样才能够在瞬间完成多笔甚至上万笔的交易信息记录,在一定的范围内可以容易数据误差的存在。所以,在不同的两种业务环境下,数据公共层提供了不同的计算方式,在计算交易数据时,消息都附带事务ID,在接收信息等一系列过程中需要对ID进行校验,如果发生丢失现成则可以重新请求数据源发送;而在计算日志数据时,利用了Bloom Filter特性,用一定量的精准度换取更少的时间和更大的空间,以便得到更多了数据信息。

  OneData和OneService

  阿里巴巴集团旗下的业务众多,对于分析数据需求量是一个十分庞大的数字,所以,阿里巴巴的数据公共层团队致力于一个基础、公共的核心数据层。将OneData指标规范化和数据建模应用到所有数据上面,集团的内外数据产品依靠统一的数据服务OneService提供服务。可以便面数据在调取使用过程中出现的指标不一致、多次建设、重复建设等问题。在实时数据公共层的搭建过程中,通过对集团的实时交易、日志数据进行DWD建模。上线了100多个实时数据接口服务于17个不同的团队,而OneService接口调用次数接近每日1.5亿次,通过这项工作下线的重复计算任务直接节省的计算资源超过230万元。

  实时数据库重要特性就是实时性,包括数据实时性和事务实时性。作为实时数据库,不能不考虑数据实时性。一般数据的实时性主要受现场设备的制约,特别是对于一些比较老的系统而言,事务实时性是指数据库对其事务处理的速度。它可以是事件触发方式或定时触发方式。事件触发是该事件一旦发生可以立刻获得调度,这类事件可以得到立即处理,但是比较消耗系统资源;而定时触发是在一定时间范围内获得调度权。作为一个完整的实时数据库,从系统的稳定性和实时性而言,必须同时提供两种调度方式。而阿里巴巴集团成功的解决了这个问题,在双十一期间依靠自身强大的实时数据公共层呈现给大家一个震撼的直播。

时间: 2024-08-04 13:29:44

阿里巴巴实时数据公共层助力双11直播的相关文章

专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化&商铺千人千面

12月6日-7日,由阿里巴巴集团.阿里巴巴技术发展部.阿里云联合主办,以"2016双11技术创新"为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办.(https://yq.aliyun.com/promotion/139)12月7日晚20:00,来自阿里巴巴的资深技术专家魏虎将在在线论坛上发表<数据赋能商家背后的AI技术>的演讲. 系列文章陆续发布: 专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用 专访阿里

阿里巴巴集团CRO刘振飞:双11的六维技术准备

2016年4月15日,阿里巴巴技术论坛在清华大学新清华学堂启幕.阿里巴巴集团CRO刘振飞围绕"双11"的技术演进以及互联网安全两大主题进行了演讲. 阿里技术的演进:从业务驱动到拓展商业边界 2009年,阿里巴巴在技术层面做出两个极其重大的决定. 1. 成立阿里云计算公司,时间定格于2009年9月10日. 2. 2009年10月,阿里巴巴启动"去IOE".耗时三年,在淘系中完全"清除"IOE(IBM小型机.Oracle数据库和EMC存储):而支付宝

阿里巴巴上市后的第一个“双11”

摘要: 10月13日,阿里巴巴西溪园区多项活动密集举行,商家见面会.媒体发布会.县域 电子商务 峰会,一切都预示着这是一个不同寻常的双11. 这是阿里巴巴上市后的第一个双11.天猫总裁 10月13日,阿里巴巴西溪园区多项活动密集举行,商家见面会.媒体发布会.县域 电子商务 峰会,一切都预示着这是一个不同寻常的"双11". 这是阿里巴巴上市后的第一个"双11".天猫总裁王煜磊对外明确了今年"双11"平台化.国际化.无线化三大方向.外界预测,阿里借上

争分夺秒:阿里实时大数据技术全力助战双11

12月13-14日,由与阿里巴巴技术协会共同主办的<2017阿里巴巴双11技术十二讲>顺利结束,集中为大家分享了2017双11背后的黑科技.本文是<争分夺秒:阿里实时大数据技术助战双11>演讲整理,主要讲解了阿里巴巴实时大数据和相关的机器学习技术,以及这些技术如何运用于阿里巴巴几十个事业部,实现大数据升级,最终取得卓越的双11战果,内容如下. 分享嘉宾:   大沙,阿里巴巴高级技术专家,负责实时计算Flink SQL,之前在美国脸书任职,Apache Flink committer

【阿里云资讯】最前沿人工智能,助力双11搜索推荐技术再升级——深度增强学习大规模在线应用

11月12日消息,天猫"双11"销售额6分58秒破百亿:前30分钟内交易峰值17.5万笔/秒,支付峰值12万笔/秒,24小时实现销售额1207亿元.用户更快.更准购物体验来自于搜索和推荐的数据智能的提升.   去年双11期间,搜索事业部因为采用个性化推荐技术给业务带来显著提升而获得阿里巴巴最高奖"CEO奖",今年技术再度升级,规模化上线最前沿的人工智能技术深度增强学习与自适应在线学习,用户点击率提升10-20%. 阿里搜索和推荐技术负责人王志荣表示,双十一的搜索与推

阿里巴巴CTO行癫:阿里双11是世界互联网技术的超级工程

11月11日晚上10点,阿里巴巴集团CTO张建锋(花名:行癫)连线上海双11媒体中心,为700多位中外媒体记者介绍了阿里技术在双11中取得的突破与成绩,表示"阿里双11是名副其实的世界互联网技术超级工程." 阿里巴巴集团CTO&双11技术指挥官 行癫 阿里的双11是一次全球商业.科技.数据.智能的大协同,是一个商业社会的大协同,更是一个技术的大协同,是名副其实的世界互联网技术的超级工程. 今年的双11,阿里技术能力再创新记录,达到了每秒32.5万笔的交易创建峰值和每秒25.6万

Redis · 最佳实践 · 阿里云Redis助力双11业务

双11如火如荼的结束了,阿里云Redis(ApsaraDB for Redis原KVStore)也圆满完成了双11Redis的保障工作.目前阿里云Redis提供了单机版本和集群版本的Redis. 单机版本Redis具有很高的兼容性,并且支持Lua脚本及地理位置计算. 集群版本具有大容量.高性能的特性,能够突破Redis单线程的单机性能极限. 阿里云Redis默认双机热备并提供了备份恢复支持,同时阿里云Redis源码团队持续对Redis进行优化升级,提供了强大的安全防护能力.本文将选取双11的一些

数据中心如何备战双11

转眼间,一年一度的双11网上购物狂欢节又要到了,这个本来最初只有淘宝推出的网上促销活动,如今已经演变成为所有网购网站的统一促销节日.双11是全年网络购物最集中的时间段,几乎是平日购物量的数十倍甚至上百倍,每秒钟都会产生上千万笔的交易,不仅给传递.仓储造成压力,尤其给这些网购网站造成了很大压力.双11的访问流量是平时流量的数十倍,如果网站的访问出现速度慢.卡顿甚至中断,都会导致大量的客户流失,收入锐减.12306就是前车之鉴,不过12306网站出问题也不会影响到客票收入,更多是被人多抱怨几句,而网

轻松hold住双11数据洪峰背后的秘密

双11刚刚拉下帷幕,激动的心还停留在那一刻--当秒针刚跨过11号零点的一瞬间,来自线上线下的千万剁手党在第一时间涌入了这场年度大趴--从进入会场到点击详情页,再到下单付款一气呵成. 前台在大家狂欢的同时,后台数据流量也正以突破历史新高的洪峰形式急剧涌入:- 支付成功峰值达 25.6 万笔/秒 - 实时数据处理峰值 4.72亿条/秒 而作为实时数据处理任务中最为重要的集团数据公共层(保障着业务的实时数据.媒体大屏等核心任务),在当天的总数据处理峰值更是创历史新高达1.8亿/秒! 想象下,1秒钟时间