iGraph 2015双促复盘总结

该文章来自阿里巴巴技术协会(ATA)精选集 

前言

随着2015双促落下帷幕,iGraph在线图存储和查询服务也在全力支撑各项业务的过程中经历了近乎疯狂的成长。随着大家逐渐从 关系的视角来审视我们的数据和业务,iGraph服务所提供的 基于关系的查询服务也开始被大家大量应用到业务逻辑中。iGraph团队也很兴奋地看到iGraph服务中所承载的业务呈现出了爆发式的增长,其中不乏集团的核心业务,比如搜索业务和推荐业务。在这里,我们iGraph团队向所有信任我们的用户,表示最衷心的感谢,是你们的信任和优异的成绩彰显了iGraph团队工作的价值。这一篇文章首先向大家整体介绍iGraph服务目前的发展状况,然后向大家介绍我们在支撑双十一大促业务过程中所做的相关工作。希望这些介绍能够让大家进一步了解iGraph,并能够给我们提出宝贵的意见。

iGraph服务现状

双十一相关指标数据

虽然iGraph服务上目前承载了众多业务,但是对iGraph服务造成巨大压力的还是集团两大核心业务—— 搜索和 推荐。这两项业务平时的体量已经足够大,双十一他们的流量更是难以预估。尤其是推荐业务,由于今年是个性化推荐元年,业务呈现出爆发式增长,更是让整个容量评估过程难上加难。

其实对于iGraph服务来讲,不但访问压力大,实时更新压力也非常巨大。因为,用户实时行为(比如点击行为、购买行为、加购行为、收藏行为等)反馈对算法效果至关重要,这些实时行为反馈通过Pora实时流计算平台实时更新到iGraph服务中。由于双十一当天用户行为数激增,所以实时行为反馈对iGraph服务造成了巨大的更新压力。

很幸运,在各团队的通力合作下,iGraph在双十一大促过程中平稳地支撑了这两条重要的业务,也迎来了iGraph各项系统指标的峰值。

系统核心指标(出于安全考虑,请原谅我们不能给出精确绝对值):
1. Proxy流量接入层峰值QPS达到几百万的,Searcher集群峰值QPS超过千万。
2. Proxy接入层在QPS达到几百万峰值QPS时,服务响应保持在3ms以内。
3. 实时更新消息峰值达到几百万QPS每秒,双十一当天更新消息总量更是超过五百亿条。

iGraph服务规模

目前,iGraph服务在上海、杭州以及深圳三个机房进行了单元化部署,为近千份关系数据提供在线服务,数据规模约250T。日常访问iGraph服务接入层峰值QPS在 110W左右。

由于大家对于iGraph团队的信任,iGraph服务的客户也在不断增长,包括(排名不分先后):
1. 个性化推荐业务
2. 淘系商品个性化搜索业务
3. 1688搜索业务
4. 虾米音乐推荐业务
5. 集团安全用户指纹业务
7. 拍立淘业务
8. 航旅业务
9. B2B ICBU推荐业务
10. 蚂蚁金服天罗地网业务
11. ...

iGraph备战双十一

iGraph团队主要从两个方向来备战2015双十一。首先,需要让iGraph支撑更多的业务,这就需要我们不断丰富iGraph的功能,并且提升业务团队使用iGraph服务的效率;其次,需要不断提升我们自身的运转效率,这就需要我们提升iGraph服务的性能同时降低维护iGraph服务的运维成本。于是我们主要做了一下几件事情:

基础数据服务

对于个性化搜索和个性化推荐来讲,都离不开用户的行为数据,通常这些数据都要求比较高的实时性(通常是秒级)。因为iGraph服务能够支持高并发低延迟的访问,并且支持大量消息实时更新,于是我们联合Pora实时流式处理平台以及iGraph服务打造了用户基础数据服务(如下图所示)。这个服务既可以提供最近一段时间内用户的历史行为数据也可以提供实时的用户行为。基础数据服务为集团各条业务的实时个性化提供支撑。基础服务提供的实时数据包括:
1. 用户点击行为
2. 用户购买行为
3. 用户收藏行为
4. 用户收藏商品行为
5. 用户收藏店铺行为
6. 用户加购行为
7. 用户Profile(购买力、偏好等)。

基础数据服务为业务方在双十一提供 126W峰值QPS,双十二 170W 峰值QPS的用户实时行为访问,给业务指标带来了巨大的提升。搜索离线团队提供的Pora 实时流式计算平台在处理用户实时日志方面也非常给力。

iGraph用户自助服务

为了能够让业务进行快速迭代,我们iGraph团队提供了一个iGraph服务自助接入Web服务。用户只需在Web页面上(如下图所示)简单填写相关信息,iGraph服务就可以自动托管整个数据的回流,并且用户可以在自助服务页面上查看到数据回流具体状态。只要自助服务页面上显示数据回流成功,那么用户就可以通过iGraph Client或者iGraph Http服务查询自己的数据。

iGraph在线自动化部署

随着iGraph服务承接的业务不停增长,iGraph集群的规模不停增长,集群的在线部署和异常处理占用了我们大量时间。为了能够自动化地进行在线集群部署以及智能的异常处理,我们给iGraph在线集群添加了一个自动化调度角色,我们称之为iGraph Admin。

有了iGraph Admin角色之后,使我们应对iGraph集群部署和异常处理变得轻松自如。集群部署只需要保证有足够的空闲机器资源,iGraph Admin可以自动申请机器资源并部署上iGraph服务,整个过程不需要人工干预;对于集群中经常出现的机器异常,iGraph Admin会自动把对应的iGraph服务迁移到正常的机器上。

iGraph服务内部优化

Proxy异步化改造

为了能够让iGraph服务支撑更高的访问量,我们将原先iGraph Proxy的线程模型进行了异步化改造。之前Proxy采用同步访问模型,使得Proxy服务的单机服务能力在1W QPS左右就上不去了,因为这时候同步服务模型所带来的线程切换代价太高,导致cpu system非常高,而此时整体CPU利用率仅仅在40%左右。为了解决这个问题,我们把Proxy的服务模型进行异步化改造,让Proxy的整体服务能力提升了2.5倍,Proxy极限CPU可以压到90%以上。如果查询返回结果稍大,这时千兆网络带宽会成为制约单机Proxy服务能力的瓶颈。

渐进式引流数据切换模式

因为iGraph中所有数据都存放在SSD上,热点数据会被Cache在内存中。这样如果某一张表进行数据全量切换时,会造成内存中所有Cache的数据都失效。这时候所有对该表的访问都会落在SSD上,如果访问量比较大,会把SSD的IOPS打满,这时候会对整体服务的稳定性造成巨大的影响。为了降低这种影响,我们在数据切换时采用渐进式引流的数据切换方式,这样可以减轻SSD的IOPS压力,同时能够让该表的热点数据逐渐Cache到内存中,最终我们可以在数据切换过程中实现在线服务的稳定性。

其实在iGraph服务性能优化方面,我们做了非常多优化,这些优化琐碎但是非常有收益,比如提供batch访问接口、优化网络中断平衡、调整内核内存回收参数等等,由于篇幅所限,我们不能一一深入说明,还请谅解。

结束语

这篇文章给大家简单介绍了iGraph在准备2015双十一大促过程中所做的一些工作以及iGraph在大促过程中的相关数据表现。由于篇幅有限,无法深入阐述每一项工作的细节。最后,感谢大家一直以来对iGraph团队的信任,我们会更加努力地将iGraph打造成更加高效、易用的关系查询服务。

时间: 2024-07-28 18:23:23

iGraph 2015双促复盘总结的相关文章

干货分享!2015“双十一”背后的关键技术盘点

时间过的很快,转眼间已近农历新年,回首这一年,盘点技术界的大事件必然离不开双十一这一场技术盛宴.当亿万用户在双十一这一天购物狂欢,屏幕那一头是众多程序员们在努力保障用户每一次点击的客户体验. 通过集结2015年双十一期间从应用服务.中间件.数据库到基础设施等等各层技术人员的一线实战技术分享总结,试图让读者看到双十一背后的人和事,也希望更多技术人从中汲取有益的经验. 技术分享 手淘双十一系列(一) | 521 性能优化项目揭秘@双十一实战   搜索双链路实时计算体系@双十一实战     iGrap

淘宝双促中的 RAX

摘要:在2017年1月12日 Weex Conf 2017上,来自淘宝前端团队的亚城结合淘宝实际业务分享了淘宝双促中的RAX实践,在本次 Weex Conf 上正式开源的 RAX 是基于 React 标准的 DSL 框架.本文是亚城关于淘宝双促中的 RAX 实践的分享整理. 以下内容根据演讲现场视频以及PDF整理而成. 本次分享的主题是淘宝双促中的 RAX .通过前面的两个分享,相信大家大致可以了解Weex 能够赋予我们什么样的能力以及天猫和淘宝在 Weex 周边做的一些的事情,并且应该也大致了

68期:2015“双11”背后的关键技术专题

云周刊 本周要点 查看更多 [盘点]2015"双11"背后的关键技术 回首这一年,盘点技术界的大事件必然离不开"双11"这一场技术盛宴.当亿万用户购物狂欢时,屏幕那一头是众多阿里工程师的努力付出.为大家盘点了2015年"双11"阿里技术内幕,从应用服务.中间件.数据库到基础设施等方面工程师一线实战技术经验分享,让你更多了解"双11"背后的人和事,也希望帮助开发者从中得到借鉴. 阿里云Docker容器服务开发挑战与对策 阿里云2

2016阿里云数据库双11复盘-自动化备战,0干预

前言 2016年天猫双11购物狂欢节已经完美落下帷幕,高峰期间订单创建每秒达到了16.5万笔,RDS集群的QPS最高达到了400W,其中99%的商家订单在阿里云云数据库服务中完成存储和处理.这是RDS连续第五年支持天猫双11大促,在持续高压力冲击下,整个双11期0故障0丢单,相比前面四年,我们在备战过程中更加的自动和主动,今年双11高峰期间做达到了0干预的目标.这些都是在前期充分的准备工作中所换来的从容,在面对这么大规模实例备战的时候,通过前几年备战经验的积累,我们在产品自动化上继续深挖,主动推

淘宝2015″双12年度盛典”设计浅谈

  在较长的项目期间,我们首先制定了设计的方向和目标,让项目从开始到最后都能够按照品牌标准和方向进行,在统一的视觉元素前提下,有效地产出了结果. 每个阶段的发散都是在最初设定的品牌规划范围内实现的.下面就来具体看一下我们是如何实现"贯穿"的吧. 我们从"形.色.意"三块分别去概括这次双12我们做的事.形,说的是图形/纹理,为了体现活动的特性和 "娱乐化",我们为这次1212做了很多丰富的图形元素.色,即色彩规范,我们给出了一套详尽的色彩规则,给设

天猫2015双11红包在哪领取?怎么领取?

1.我们在手机中必须要安装"淘宝或天猫客户端,"然后我们打开它之后点击"扫一扫"之后我们点击"扫双11标志赢红包"如下图所示,操作也相当的简单: 2.好了之后在弹出层我们点击"我知道啦"如下所示我们利用下面的双11标志图片进行扫码,出现天猫跳舞即可等待红包,可以重叠. 3.双11标志图(扫码这个,等待天猫跳舞,就可以获得红包). 好了这样我们就可以获得双11红包了,各位快去看看喽,当然这个只是教程活动开始还需要一些时间的哦.

【干货合集】大流量与高并发:双11技术盘点(二)

峰会专题:https://yq.aliyun.com/activity/112 报名入口:http://yq.aliyun.com/webinar/join/49?spm=5176.8155509.437644.12.F2Xi5N 从2009年第一届双十一购物节到2015年双十一全天912.17亿元的交易额,"双十一"当天订单创建峰值增长了350倍(每秒14万笔),支付峰值 (每秒8.59万笔)增长了430倍.为了保证越来越多购物者的用户体验,在IT基础设施上,阿里一次又一次地遭遇并超

社区精选来几套,欢欢乐乐闹元宵!【49篇深度】

  新浪微博.淘宝搜索.美团.美丽说.淘宝推荐.小米.支付宝.阿里云.淘宝无线在内,涵盖建模.个性化推荐.排序学习.系统优化.数据监控.流量优化.架构探索等多方面一线经验总结. <手机淘宝推荐中的排序学习>  <基于微博用户关系和行为的用户建模>  <移动电商搜索个性化技术>  <美团生活服务个性化推荐实践>  <美丽说个性化推荐技术>  <UC浏览器客户端的数据监控及应用>  <走进阿里分布式数据库服务[实践]> <

2015天猫淘宝双11抢红包攻略

2015天猫淘宝活动虽然还有一段时间,不过2015双11万店同庆赢红包活动已经开启了哦,2015天猫淘宝万店同庆红包只能在手机客户端参与的哦,如果你还不知道2015双11怎么抢红包,下面百事网小编就给大家带来2015天猫淘宝双11抢红包攻略. 双11万店同庆赢红包活动时间 2015年10月13日00:00:00至2015年11月11日23:59:59. 双11万店同庆赢红包参与条件 用户的淘宝会员账号所绑定的支付宝账号须通过实名认证,并开启余额支付功能,否则不能中奖. 双11万店同庆赢红包活动入