饿了么:云端调度,饭来张口

饿了么:云端调度,饭来张口
“云栖奖”获奖人:饿了么CTO 张雪峰
作者:阿里云研究中心 田丰

 

外卖送餐市场近几年都保持了超过200%的高增长速度。有如团购市场、共享出行市场的“百团大战”,网络订餐经历了低门槛遍地开花、砸钱补贴吸引用户量、精益运营降本增效三个重要阶段。据比达咨询市场分析数据显示,2016年中国第三方餐饮外卖市场格局中,饿了么位居第一,市场份额为34.6%,美团外卖(33.6%)、百度外卖(18.5%)紧随其后,在“白领市场”、“社区市场”、“校园市场”的细分领域中,饿了么均占据榜首位置。截至2016年12月,饿了么业务覆盖1400多个城市,用户超过1亿,各地加盟餐厅超过100万家,日订单量突破900万,旗下“蜂鸟配送”日配送单量超过450万。

在 “独角兽”的成长道路上,饿了么面对人工成本高制约业务快速扩张、人工派单速度慢导致高峰期积压订单严重、人工派单随机性强引起订单配送时效性差等现实问题,而阿里云通过智能派单系统,基于海量历史订单数据、餐厅数据、骑手数据、用户数据等信息实现智能派单,逐步替代调度员的大部分工作。智能派单系统整体全面上线后将释放90%以上人工派单的人力,每年节省人力支出预计超过亿元。

饿了么的IT系统架构伴随业务量飙升,进行了三次重大升级。

1)起步期(2009至2013年)饿了么由上海交通大学创始团队起家,发展至35人规模,日订单量维持在十万量级,由“IDC+Python”技术组合支撑业务运营,但面临Python人才难觅等困扰。

2)成长期(2014年至2015年):14年8至9月短短2个月内日均订单量增长10倍,从10万迅猛飙升至100万,业务规模主攻全国200个城市,原有IT系统架构压力极大,依靠人肉运维举步维艰,故障波动影响业务,创始人与核心技术团队坚守机房运维一线,才勉强扛住100万量级业务订单。开始借鉴阿里淘宝架构模式,人员团队也涨至500人,技术生态从Python扩展至“Java+Python”开发体系,从“人肉”支撑百万订单运营到自动化运维,并筹备同城异地容灾体系。

3)规模期(2015年2017年):2015年7至8月,日均订单量从200万翻倍,以往积压的问题都暴露出来,技术架构面临大考验,坚定了架构上云的方案,团队扩展至1000人,架构要承载数百万量级业务时,出现峰值成本、灾备切换、IDC远程运维等种种挑战,全面战略转型采用“IDC+云计算”的混合云架构。在2016年12月25日圣诞节日订单量迎来前所未有的900万单,因此在技术架构上探索多活部署等创新性研发。

 

 

为什么选择架构转型上云?据饿了么CTO张雪峰先生所说,技术架构从IDC经典模式发展至混合云模式,主要原因是三个关键因素让管理层下定决心上云:

1) 脉冲计算从技术架构配套业务发展分析,网络订餐业务具有明显的“脉冲计算”特征,在每日上午10:00至13:00、晚间16:00至19:00业务高峰值出现,而其他时间则业务量很低,暑假是业务高峰季,2016年5.17大促,饿了么第一次做“秒杀”,一秒订单15000笔,巨大的波峰波谷计算差异,引发了自建数据中心容量不可调和的两难处境,如果大规模投入服务器满足6小时的高峰业务量,则其余18个小时的业务低谷计算资源闲置,若满足平均业务量,则无法跟上业务快速发展节奏,落后于竞争对手;搞电商大促时,计算资源投入巨大,大促之后计算峰值下降,采用自建机房利用率仅10%,所以技术团队摸索出用云计算扛营销大促峰值的新模式,采用混合云架构满足 “潮汐业务”峰值计算,阿里云海量云计算资源弹性随需满足巨大的脉冲计算力缺口,这与每年“双11” 淘宝引入阿里云形成全球最大混合云架构具有异曲同工的创新价值。

2) 数据量爆炸伴随饿了么近五年业务量呈几何级数的爆发式发展,数据量增速更加令人吃惊,是业务量增速的5倍,每日增量数据接近100TB,2015年短短2个月内业务量增长10倍,数据量增长了50倍,上海主生产机房不堪重负。30GB的DDoS攻击对业务系统造成较大风险,上云成为承载大数据、抗网络攻击的好方法。

3) 高可用性挑战众所周知,IDC自建系统运维要承担从底层硬件到上层应用的“全栈运维”运营能力与维修能力,当2015年夏天上海数据中心故障发生,主核心交换机宕机时,备核心交换机Bug同时被触发,从事故发生到硬件厂商携维修设备打车赶往现场维修的整个过程中,饥饿的消费者无法订餐吃饭,技术团队第一次经历业务中断而束手无策,才下定决心大笔投入混合云灾备的建设,“吃一堑,长一智”,持续向淘宝学习电商云生产与灾备架构,以自动化运维替代人肉运维,从灾备向多活演进,成为饿了么企业架构转型的必经之路。

4) 大数据精益运营:不论网络打车还是网络订餐,共享服务平台脱颖而出的关键成功要素是智能调度算法,以大数据训练算法提升调度效率,饿了么在高峰时段内让百万“骑士”(送餐快递员)完成更多订单是算法持续优化的目标,而这背后隐藏着诸多复杂因素,包括考虑餐厅、骑士、消费者三者的实时动态位置关系,把新订单插入现有“骑士”的行进路线中,估计每家餐厅出餐时间,每个骑手的行进速度、道路熟悉程度各不相同,新老消费者获客成本、高价低价订单的优先级皆不相同。种种考量因素合并到一起,对于人类调度员来说,每天中午和晚上的高峰都是巨大的挑战。以上海商城路配送站为例,一个调度员每6秒钟就要调度1单,他需要考虑骑手已有订单量、路线熟悉度等。因此可以说,这份工作已经完全不适合人类。但对人工智能而言,阿里云ET则非常擅长处理这类超复杂、大规模、实时性要求高的“非人”问题。

 

 

   饿了么是中国最大的在线外卖和即时配送平台,日订单量900万单、180万骑手、100万家餐饮店,既是史无前例的计算存储挑战,又是人无我有的战略发展机遇。饿了么携手阿里云人工智能团队,通过海量数据训练优化全球最大实时智能调度系统。在基础架构层,云计算解决弹性支撑业务量波动的基础生存问题,在数据智能层,利用大数据训练核心调度算法、提升餐饮店的商业价值,才是业务决胜的“技术神器”。

在针对大数据资源的“专家+机器”运营分析中,不断发现新的特征:

1) 区域差异性:饿了么与阿里云联合研发小组测试中发现有2个配送站点出现严重超时问题。后来才知道:2个站点均在成都,当地人民喜欢早、中餐一起吃,高峰从11点就开始了。习惯了北上广节奏的ET到成都就懵了。据阿里云人工智能专家闵万里分析:“不存在一套通用的算法可以适配所有站点,所以我们需要让ET自己学习或者向人类运营专家请教当地的风土人情、饮食习惯”。除此之外,饿了么覆盖的餐厅不仅有高大上的连锁店,还有大街小巷的各类难以琢磨的特色小吃,难度是其他智能调度业务的数倍。

2) 复杂路径规划吃一口热饭有多难?送餐路径规划比驾车出行路径规划难度更高,要考虑“骑士”地图熟悉程度、天气状况、拼单效率、送餐顺序、时间对客户满意度影响、送达写字楼电梯等待时间等各种实际情况,究竟ET是如何实现智能派单并确保效率最优的呢?简单来说,ET会将配送站新接订单插入到每个骑手已有的任务中,重新规划一轮最短配送路径,对比哪个骑手新增时间最短。为了能够准确预估新增时间,ET需要知道全国100万家餐厅的出餐速度、超过180万骑手各自的骑行速度、每个顾客坐电梯下楼取餐的时间。一般来说,餐厅出餐等待时间占到了整个送餐时间的三分之一。ET要想提高骑手效率,必须准确预估出餐时间以减少骑手等待,但又不能让餐等人,最后饭凉了。饿了么旗下蜂鸟配送“准时达”服务单均配送时长缩短至30分钟以内。

3) 天气特殊影响:天气等环境因素对送餐响应时间影响显著,要想计算骑手的送餐路程时间,ET需要知道每个骑手在不同区域、不同天气下的送餐速度。如果北京雾霾,ET能看见吗?双方研发团队为ET内置了恶劣天气的算法模型。通常情况下,每逢恶劣天气,外卖订单将出现大涨,对应的餐厅出餐速度和骑手骑行速度都将受到影响,这些ET都会考虑在内。如果顾客在下雪天点个火锅呢?ET也知道,将自动识别其为大单,锁定某一个骑手专门完成配送。

4) 餐饮营销顾问:饿了么整体业务涉及C端(消费者)、B端(餐饮商户)、D端(物流配送)、BD端(地推营销),以往区域业务开拓考核新店数量,现在会重点关注餐饮外卖“健康度”,对于营业额忽高忽低、在线排名变化的餐饮店,都需要BD专家根据大数据帮助餐饮店经营者找出原因并给出解决建议,避免新店外卖刚开始就淹没在区域竞争中,销量平平的新店会离开平台,通过机器学习把餐饮运营专家的经验、以及人看不到的隐含规律固化下来,以数据决策来发现餐饮店经营问题、产品差异定位,让餐饮商户尝到甜头,才愿意继续经营。举个例子,饿了么员工都喜欢楼下一家鸡排店的午餐,但大数据发现这家店的外卖营收并不如实体店那么火爆,9元“鸡排+酸梅汁”是所有人都喜欢的爆款产品,可为什么同样菜品遭遇“线下火、线上冷”呢?数据预警后,BD顾问指出线上外卖鸡排产品没有写明“含免费酸梅汁一杯”的关键促销内容,导致大多数外卖消费者订一份鸡排一杯酸梅汁,却收到一份鸡排两杯酸梅汁,体验自然不好。

 

饿了么是数据驱动、智能算法调度的自动化生活服务平台,通过O2O数据的在线实时分析,与阿里云人工智能团队不断改进算法,以“全局最优”取代“局部最优”,保证平台上所有餐饮商户都能享受到数据智能的科技红利。

 

“上云用数”的外部价值诸多,从饿了么内部反馈来看,上云不仅没有让运维团队失去价值,反而带来了“云原生应用”(Cloud Native Application)、“云上多活”、“CDN云端压测”、“安全风控一体化”等创新路径与方案,通过敏捷基础设施(IaaS)、微服务架构(PaaS和SaaS)、持续交付管理、DevOps等云最佳实践,摆脱“人肉”支撑的种种困境,进而实现更快的上线速度、细致的故障探测和发现、故障时能自动隔离、故障时能够自动恢复、方便的水平扩容。饿了么CTO张雪峰先生说:“互联网平台型组织,业务量涨数倍,企业人数稳定降低,才是技术驱动的正确商业模式。

    在不久的将来,你每天订餐、出行、娱乐、工作留下的大数据,会“驯养”出无处不在、无所不能的智能机器人管家,家庭助理帮你点菜,无人机为你送餐,聊天机器人接受你的投诉……当然这个无比美妙的“未来世界”背后,皆有阿里云的数据智能母体“ET”。

时间: 2024-09-14 23:08:46

饿了么:云端调度,饭来张口的相关文章

面向容器的资源调度技术对比

本文以资源分配理念,拍卖.预算.抢占出发,引出Borg.Omega.Mesos.Kubernetes架构.数据.API的特点比较.然后梳理资源共享各种不同共享形式的内容,接着对比任务类型,最后回到资源利用率和基于数据预测角度,看相关系统是如何运用和实现各自场景目标.最后给出阿里巴巴电商在线服务资源调度器Zeus关键技术内容. 进入这个领域的门槛不在具体某个技术,而业务场景和技术选型的映射匹配,特别是周边系统的完善程度,决定了如何选择方案.如何制定落地计划.本文不是为了全面分析某个调度器,也不是全

阿里、Google、Twitter面向容器的资源调度技术比较

前言  本文以资源分配理念:拍卖.预算.抢占出发,引出Borg.Omega.Mesos.Kubernetes架构.数据.API的特点比较.然后梳理资源共享各种不同共享形式的内容,接着对比任务类型,最后回到资源利用率和基于数据预测角度,看相关系统是如何运用的和实现各自场景目标的.最后给出阿里巴巴电商在线服务资源调度器Zeus关键技术内容.具体单个调度器技术和文章,可以在网络获取.   进入这个领域的门槛不在具体某个技术,而业务场景和技术选型的映射匹配,特别是周边系统的完善程度,决定了如何选择方案.

连接地方,百度地图如何构筑大数据王国?

昨天,百度地图与成都交警.成都交投签署合作协议,建立战略合作伙伴关系,成都交警将向百度开放公共交通大数据,让百度地图给用户提供更加便利的地图服务,如实时路况:而百度则将提供云计算.大数据和人工智能等领域的技术,协助成都交警实现宏观决策.信息化管理和精准治理. 这则新闻有一些似曾相似.没错,自从去年底与江苏交通运输厅战略合作之后,百度地图与地方交通部门合作正逐步走向常规化,就在5月百度地图还与海口交警达成了合作,合作模式可谓大同小异:政府部门与百度地图共享各自拥有的交通数据,百度还会共享其技术和海

未来的技术平台:社交、手机、云计算和信息

据高德纳股份有限公司所说,康涅狄格州斯坦福德市--社交媒体.手机.云计算和信息的集中地,正建立于并转变为用户行为,同时创造新的业务机会. 虽然这些力量对他们自己来说是创新的.颠覆的,但它们正对商业和社会产生革命,瓦解旧的商业模式并产生新的领导者.同样的,这些力量的连结是未来新技术平台的基础. "在这些关联的力量中,信息提高社交和手机体验的传送环境," 高德纳的常务副总裁Chris Howard说."移动设备是有效的社交网络和新型工作方式的平台.社交网络以崭新的和意想不到的方式

如何克服云端数据仓库数据迁移问题?

云计算和数据仓库是合理的一对.云存储可以按需扩展,云可以将大量服务器贡献于某一具体任务.数据仓库通用功能是本地数据分析工具,受到计算和存储资源的限制,同时也受到设计者考虑新数据源集成的能力的限制.如果我们可以克服一些数据迁移的挑战,将一个数据仓库以及其数据分析工具从数据中心中的专用服务器转移到基于云的文件系统和数据库就可以解决这个问题. 云端数据管理通常牵扯到在分布式文件系统中加载和维护文件,像Hadoop分布式文件系统(HDFS),随后用类似MapReduce这样的工具处理数据.对于数据仓库和

云端的SRE发展与实践

本文讲的是云端的SRE发展与实践[编者的话]云是大势所趋,它能把很多底层的问题封装起来,让我们有更多精力去做更重要的事情. [3 天烧脑式基于Docker的CI/CD实战训练营 | 北京站]本次培训围绕基于Docker的CI/CD实战展开,具体内容包括:持续集成与持续交付(CI/CD)概览:持续集成系统介绍:客户端与服务端的 CI/CD 实践:开发流程中引入 CI.CD:Gitlab 和 CI.CD 工具:Gitlab CI.Drone 的使用以及实践经验分享等. 背景 SRE(Site Rel

快递快了背后,双11传统物流企业与阿里云的“云端智能”

一组相关数据,今年双11共产生8.12亿个物流订单.其中,全网第一单包裹只用12分18秒就送达,进口第一单33分15秒送达,农村第一单69分50秒送达.双11当天共发送3.66亿个订单,第1亿个订单送达仅需要2.8天,比起去年提前0.7天. 双11买买买之后,是今年物流行业的"稳定有序",和感觉明显的"快递快了". (耗时12分18秒,2017年天猫双11首单在上海嘉定签收) 应对双11海量物流订单大规模数据及计算力需求,阿里云搭建起全球最大物流混合云应用,在物流合

阿里云成为CNCF金牌会员 提供云端Kubernetes解决方案

         5月23日,在云栖大会 · 成都峰会上,CNCF宣布阿里云正式成为金牌会员.阿里云表示将持续加大对云原生计算技术的支持,在推动云计算开放性和标准化方面发挥自己的力量.   同时,阿里云容器服务宣布支持Kubernetes和Docker最新的Swarm mode.这样,阿里云也成为中国唯一一家同时支持这两个最流行容器调度系统的中国云计算公司.阿里云产品总监汤子楠表示:"阿里云始终秉承对技术生态的全面支持,云端Kubernetes的解决方案将给开发者多样化的选择."  

阿里云成为 CNCF 金牌会员,提供云端 Kubernetes 解决方案

5 月 23 日,在云栖大会 · 成都峰会上,CNCF 宣布阿里云正式成为金牌会员.阿里云表示将持续加大对云原生计算技术的支持,在推动云计算开放性和标准化方面发挥自己的力量. 同时,阿里云容器服务宣布支持 Kubernetes 和 Docker 最新的 Swarm mode.这样,阿里云也成为中国唯一一家同时支持这两个最流行容器调度系统的中国云计算公司.阿里云产品总监汤子楠表示:"阿里云始终秉承对技术生态的全面支持,云端Kubernetes 的解决方案将给开发者多样化的选择." &qu