“刺激的”2017双11 阿里安全工程师首度揭秘智能风控平台MTEE3

“太刺激了,太刺激了!如果那个48%真出问题,整个安全部的双11就可能是3.25!”知命推了推眼镜,语速明显快了一些。伴随着肢体语言,知命表现出来的是程序员解除了重大Bug时的那种兴奋与激动。

用这部IMDB评分最高的电影向阿里安全的工程师致敬

MTEE3是什么?那个48%又是什么鬼?

知命,阿里安全业务安全产品技术高级专家,智能风控平台MTEE3的技术负责人。这一切,他向我们和盘托出。

MTEE3,性能、智能双重加持

MTEE3的中文名称叫业务安全智能风控平台,最后面的3代表这是全新一代的3.0系统。这套系统的功用是为阿里经济体的各类核心业务提供账号安全、黄牛刷单、活动反作弊、内容安全、人机识别等几十种风险的防护与保障。据悉,在2017天猫双11当天,MTEE3处理了超过300亿次的业务风险扫描,扫描峰值超过200万次/秒,这组数据在全球来看也是独一无二的,同时也证明了系统的性能非常强悍。

为了便于我们更了解,知命先做了业务安全的概念普及。

“MTEE3是业务层的安全防控平台。”知命向笔者解释道。据知命介绍,从业务层来看,传统的安全威胁,如盗号、垃圾账号(通过机器批量申请的帐号)等,对于网站的正常运营是有影响的。黑灰产利用这些账号来抢红包、薅羊毛。

“防羊毛党,我们叫营销反作弊;还有就是黄牛党,我们的平台有很多热销产品,比如酒水、手机等;还有识别机器行为的人机防控;还有就是内容方面的防控。这些都是在网络层以上的,我们叫业务安全。”知命说。

据介绍,阿里的业务安全,基于大数据实时分析建模技术,通过每个用户行为背后数千个数据指标的实时计算,利用规则引擎、模型引擎、关系网络、团伙分析、设备画像、语义分析、机器视觉等技术对风险进行快速有效的防控,而运行的平台就叫MTEE3。MTEE3上部署了大量的规则和模型,为阿里经济体多个业务提供防护。“我们将用户的行为称为‘事件’,比如用户的注册、登录、修改基础信息、聊天、下单、支付、发货、收货、评价等等,每个行为点上我们都会去进行防控。”知命告诉笔者,正是因为进行全链路的防控,所以MTEE3能够“轻易地”识别出恶意账号等。

MTEE3的“轻易地”还包含了其毫秒级的响应能力,今年双11,MTEE3将下单环节的风险扫描控制在10毫秒左右,用户几乎无感知。

综上所述,MTEE3的性能是非常强大的,但除此之外,它还具备了智能的特性。对此,知命也进行了详细的解释。

对于正常的用户、机器账号,抑或是黄牛,MTEE3会分析很多的变量(指标),然后综合进行判断。这些变量有多个维度,这些维度包括有账号、设备、环境、内容以及用户的行为等。

“MTEE3对这些信息进行实时的计算和分析,而且这个过程需要在极短的时间内完成。”知命说。

知命表示,MTEE3都是基于信息流的计算,它并不是将所有的数据保存下来,然后再通过数据库去查询,因为这样效率会非常低。阿里安全的工程师赋予MTEE3的是一边计算一边存储的模式,经过计算后,得出结论,然后将结果返回给交易,最后再存下来。“MTEE3其实具备的是流式计算的能力。”知命说。

知命告诉笔者,基于规则和模型的安全防控,基本上历年都在用。而今年安全策略中心团队在双11智能化上的突破,是全新启用了决策天平,利用机器学习算法进行智能化决策,并在双11中使用,首战告捷。决策天平综合考虑风险防控、用户体验、商业考量等多方面因素,利用全局寻优算法计算当前最优解,并考虑到风险分布的变化,利用强化学习对最优解进行修正,产出下一时刻的风险处置决策,通过系统自动化执行决策,同时利用实时计算做到了秒级的决策方案更新。决策天平打造了未来风控模式的雏形。

“刺激的”2017双11

对于知命和他的团队来说,2017年的双11是相当“刺激”的。

首先,他们要解决性能的问题。如果只是简单地叠加资源,比如增加服务器数量,这个问题看上去似乎也不是那么的难。然而,事实却是,知命面对的是资源的增长只有那么一点点,但要求的指标,比如交易峰值,却是要比去年双11翻倍。

这个问题怎么解?

阿里安全的工程师对计算引擎进行了完全重写方式的改造,目的就是让它算得更快,性能提升100%有余;同时,对策略体系的部署进行优化;而与其他安全防护层,比如网络层,进行实时联动,提升整体的效率。

另外,2017双11,安全策略中心团队和产品技术团队一起针对策略体系也进行了重构改造,建立起层次化、体系化的策略架构,去除策略孤岛,规则和机器学习模型有机组合,筑起全新的防控大坝,提升对风险的覆盖率和精准度。

知命告诉笔者,由于补贴方案到最后两天都还会有变更,因此相应的策略、模型和规则等都会产生实时的变化,同时,黑产从哪里来,这个也无法确定。这三方面的“不确定”,让阿里安全的技术团队承受着极大的压力。

然而,知命和他的团队还是提出了解决方案。“由于这些不确定性,所以我们今年决定要容忍一些变化。特别是计算引擎,我们希望在策略变化的前提下,系统的性能是能保证的,资源消耗要在同一量级,而不是说线性增长。”知命说。据介绍,MTEE3项目团队做了相当多的工作,比如,将规则引擎、模型引擎进行重构改造,特别是规则引擎全部重写。经过改造之后,MTEE3的性能成倍增长。

“我们做这个项目,双11是个重要的节点,但并不是只为了它,更是要为未来做准备,是为了策略的重构做升级。计算引擎一直在运行,运行过程中进行升级,相当于是给飞行中的飞机换引擎,这是相当大的挑战。”知命说。

实际上,MTEE3是2017年3月份才上线的。但是,到618的时候并没有被应用,而99酒水节才是真正意义上的实战检验。而这次之后,就是双11了。

我们非常好奇,双11前夕,知命和他的团队是怎样的状态和节奏?

11月8日,MTEE3接到最后一个需求变更。这个时间点,原本是不再允许接受新的需求变更了,但经过各个Leader的综合判断,这个变更必须进行。

11月9日晚上十点的时候,知命和小伙伴们还在反复地测试MTEE3。到了11月10日早上七点,反复测试多轮,所有功能点终于全部验证完毕。

一切看上去似乎风平浪静。

然而,早11月10日零点的时候,又发现了一个“大问题”。“安全策略工程师发现:下单场景下,安全防控策略存在48%的防控拦截失败?最大的挑战在于阿里安全的工程师不确定究竟是所有策略出了问题,还是只有一条策略是这样。但此时,距离2017双11已经不足24小时。”知命说。

“本来大战前1天是希望大家休息一下了,但还是赶紧把所有人叫起,排查这个问题。”知命说,“最后搞到11月10日凌晨三点多,幸好最终查证是虚惊一场。这个是真的非常刺激!”

MTEE3保护着上亿的资金,如果双11当天,这48%拦截失败,后果无法想象。“今年跟以前不一样,今年是前期的准备压力特别大。特别是那个48%,太刺激了,太刺激了。如果这个没防住,整个安全部的双11就可能是3.25!”知命说。

直到11月10日晚上,知命还在和策略中心团队对焦重点防控人群的问题,而最终敲定具体的策略已经是当晚八点多钟。

但真正到了11月11日零点的时候,负责MTEE3系统的工程师反而放松下来。“去年,我们整整待了36个小时,加上跨境,一共是38个小时。今年,待到晚上2点多,很多同学就已经可以回去睡觉了。”知命淡淡地说到。

时间: 2024-10-24 10:15:06

“刺激的”2017双11 阿里安全工程师首度揭秘智能风控平台MTEE3的相关文章

2017双11交易系统TMF2.0技术揭秘,实现全链路管理

  阿里巴巴资深技术专家 毗卢 毗卢,阿里巴巴资深技术专家,主导设计了TMF2.0框架,并基于该框架完成交易平台架构升级改造,目前负责商品中心,专注电商领域业务建模与工程交付相结合的研究与平台推广. 交易平台遇到的挑战 在刚刚过去的2017双11,交易峰值达到了32.5万笔/秒,这给整个交易系统带来了非常大的挑战.一方面,系统需要支撑全集团几十个事业部的所有交易类需求:要考虑如何能更快响应需求.加快发布周期:如何能为新小业务提供快速支撑.降低准入门槛:是否足够开放使得业务方能做到自助式扩展:新需

零点之战!探访阿里巴巴8大技术专家,提前揭秘2017双11关键技术

点击进入阿里云双11主会场 摘要:在距离双11已经不到10天的这个时刻,一场看不见硝烟的战争似乎已经打响.随着一年一度购物狂欢的即将到来,网上出现了很多阿里技术应对双11的段子."阿里工程师拜关公求服务器不宕机","技术人员围着被子敲代码"等传闻也被消费者们所津津乐道.那么,针对双11期间极为严苛的技术压力,阿里巴巴究竟是用怎样的方式进行解决的呢?在接下来的文段中,就让我们一起来对阿里巴巴在2017双11背后的技术进行一次细致的了解和探访.   阿里巴巴针对双11的

双11阿里云技术负责人杨旭:大考亦从容

杨旭,花名杨曦,这是他的第六个双11. 从2012年开始,阿里云通过云计算技术为天猫双11提供计算服务. 3年前,杨旭开始作为双11阿里云技术负责人,负责搭建全球最大的混合云结构,把 "双11"的电商业务和技术场景在阿里云上实现,并保障这个混合云在双11当天能够满足全球客户的购物需求.  11月11日晚上零点整,海量峰值如期而至,项目室里的每一个人都屏息静气的看着陡增的峰值. 几个小时以后,第一波峰值顺利度过,项目室里又恢复了喧闹.  "每一年的双11,都是一次赶考.&quo

揭秘2017双11背后的网络-双11的网络产品和技术概览

引言 揭秘2017双11背后的网络-一张图读懂2017双11中的网络产品和技术 揭秘2017双11背后的网络-双11的网络产品和技术概览 揭秘2017双11背后的网络-直面双11洪峰的负载均衡SLB 揭秘2017双11背后的网络-全球最大混合云架构 注:如果对网络产品还不太了解的,推荐阅读 一张图看懂阿里云网络产品[一]网络产品概览 下面分别对双11中的主要网络产品-专有网络VPC,负载均衡SLB,NAT网关,高速通道以及混合云架构进行介绍 VPC-安全的网络容器 专有网络VPC(Virtual

双11阿里核心交易系统上云 为全球首次

本文讲的是双11阿里核心交易系统上云 为全球首次[IT168 云计算]今天,全民电商狂欢节双11正式拉开帷幕,从零点开始,位于水立方的天猫交易展示电子大屏正式开始启动,零时31分,天猫双11购物狂欢节交易额突破190亿元,达到3年以前全天的成交量.17小时28分,2015天猫双11全球狂欢节交易额超719亿,超过2014年全国社会消费品单日零售额! 今年双11,阿里巴巴正式上线了全球电商渠道,涉足海外商品市场,在全民海购热潮的持续推动下,阿里此举无疑又一次引爆了全民购物的热情.据天猫内部统计,今

双12根本不在话下,阿里首次揭秘扛过双11的千亿级特征分布式机器学习平台XPS

阿里巴巴电商平台有上亿的用户和产品,每天产生百亿规模的用户反馈数据.比如淘宝首页的猜你喜欢场景,每天就有100亿规模的用户行为数据.如此超大规模的训练数据,给分布式机器学习带来了巨大的挑战,也引入了有趣的研究问题.2017年,阿里巴巴推荐算法团队和计算平台PAI团队合作打造了eXtreme Parameter Sever (XPS) 机器学习平台,其中eXtreme寓意为"追求极致", 体现我们希望设计具有极致性能和效果的机器学习平台的愿景.XPS平台已经广泛全流量运行在手机淘宝的猜你

一张图看懂2017双11中的网络产品和技术

一张图看懂2017双11中的网络产品和技术 揭秘2017双11背后的网络系列文章: 揭秘2017双11背后的网络-一张图看懂2017双11中的网络产品和技术 揭秘2017双11背后的网络-双11的网络产品和技术概览 揭秘2017双11背后的网络-直面双11洪峰的负载均衡SLB 揭秘2017双11背后的网络-全球最大混合云架构

解码2017双11:全球狂欢新记录背后的阿里云存储

阿里云存储支撑双11新记录 2017天猫双11全球狂欢节,全天成交额再次刷新纪录达到1682亿元,全天支付总笔数达到14.8亿,全天物流订单达8.12亿,全球225个国家和地区的消费者参加.新零售能量全面爆发,全球超100万商家线上.线下打通,近10万智慧门店.超50万零售小店参与"全球共振". 这背后是大数据的支撑和阿里云计算的能力的体现.手淘.天猫APP主站的所有图片和视频都存储在阿里云对象存储OSS之上,全球数以亿计的消费者,对这些商品的访问的流量和并发次数,比成交笔数高得高.正

2017双11技术揭秘—阿里数据库计算存储分离与离在线混布

作者:吕建枢(吕健) 背景 随着阿里集团电商.物流.大文娱等业务的蓬勃发展,数据库实例以及数据存储规模不断增长,在传统基于单机的运维以及管理模式下,遇到非常多的困难与挑战,主要归结为: 机型采购与预算问题在单机模式下计算资源(CPU和内存)与存储资源(主要为磁盘或者SSD)存在着不可调和的冲突:计算与存储资源绑定紧密,无法进行单独预算.数据库存储时,要么计算资源达到瓶颈,要么是存储单机存储容量不足.这种绑定模式下,注定了有一种资源必须是浪费的. 调度效率问题在计算与存储绑定的情况下,计算资源无法