重磅!阿里妈妈首次公开自研CTR预估核心算法MLR

一、 技术背景

CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数除以广告的展现量。点击率预估(Click-Through Rate Prediction)是互联网主流应用(广告、推荐、搜索等)的核心算法问题,包括Google、Facebook等业界巨头对这个问题一直进行着持续投入和研究。

CTR预估是互联网计算广告中的关键技术环节,预估准确性直接影响公司广告收入。广告领域的CTR预估问题,面临的是超高维离散特征空间中模式发现的挑战——如何拟合现有数据的规律,同时又具备推广性。
二、 CTR预估算法现状及进展

2.1 传统CTR预估算法及不足
业界传统的CTR预估解法是广义线性模型LR(logistic regression,逻辑斯特回归)+人工特征工程。LR使用了Logit变换将函数值映射到0~1区间,映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化,处理上亿条训练样本不是问题。但这种解法的不足是,因为线性模型的学习能力有限,需要引入大量的领域知识来人工设计特征以及特征之间的交叉组合来间接补充算法的非线性学习能力,非常消耗人力和机器资源,迁移性不够友好。

另外,目前业界也有一些效果不错的非线性模型不断被提出来,并被工程实践且取得不错效果,但这些模型都或多或少存在一些不足。比如Kernel方法,因为复杂度太高而不易实现;比如Tree based方法,这个是由Facebook团队在2014年首先提出,有效地解决了LR模型的特征组合问题,但缺点就是仍然是对历史行为的记忆,缺乏推广性;还有FM(factorization machine)模型,能自动学习高阶属性的权值,不用通过人工的方式选取特征来做交叉,但FM模型只能拟合特定的非线性模式,如最常用的2阶FM只能拟合特征之间的线性关系和二次关系。深度神经网络非线性拟合能力足够强,但面对广告这样的大规模工业级稀疏数据,适合数据规律的、具备推广性的网络结构业界依然在探索中,尤其是要做到端到端规模化上线,这里面的技术挑战依然很大。

那么挑战来了,如何设计算法从大规模数据中挖掘出具有推广性的非线性模式?

2.2 阿里妈妈自主研发MLR算法

2011-2012年期间,阿里妈妈资深专家盖坤(花名靖世)突破了主流大规模线性模型的思路,创新性地提出了MLR(mixed logistic regression, 混合逻辑斯特回归)算法,引领了广告领域CTR预估算法的全新升级。MLR算法创新地提出并实现了直接在原始空间学习特征之间的非线性关系,基于数据自动发掘可推广的模式,相比于人工来说效率和精度均有了大幅提升。

MLR可以看做是对LR的一个自然推广,它采用分而治之的思路,用分片线性的模式来拟合高维空间的非线性分类面,其形式化表达如下:

这里面超参数分片数m可以较好地平衡模型的拟合与推广能力。当m=1时MLR就退化为普通的LR,m越大模型的拟合能力越强,但是模型参数规模随m线性增长,相应所需的训练样本也随之增长。因此实际应用中m需要根据实际情况进行选择。例如,在我们的场景中,m一般选择为12。下图中MLR模型用4个分片可以完美地拟合出数据中的菱形分类面。

MLR算法适合于工业级的大规模稀疏数据场景问题,如广告CTR预估。背后的优势体现在两个方面:

1)端到端的非线性学习:从模型端自动挖掘数据中蕴藏的非线性模式,省去了大量的人工特征设计,这 使得MLR算法可以端到端地完成训练,在不同场景中的迁移和应用非常轻松。

2)稀疏性:MLR在建模时引入了L1和L2,1范数正则,可以使得最终训练出来的模型具有较高的稀疏度, 模型的学习和在线预测性能更好。当然,这也对算法的优化求解带来了巨大的挑战,具体细节参见我们的论文(见文章尾部)。

2.3 MLR算法高级特性

在具体的实践应用中,阿里妈妈精准定向团队进一步发展了MLR算法的多种高级特性,主要包括:

1)结构先验。基于领域知识先验,灵活地设定空间划分与线性拟合使用的不同特征结构。例如精准定向 广告中验证有效的先验为:以user特征空间划分、以ad特征为线性拟合。直观来讲这是符合人们的认知的:不同人群具有聚类特性,同一类人群对广告有类似的偏好,例如高消费人群喜欢点击高客单价的广告。结构先验有助于帮助模型缩小解空间的探索范围,收敛更容易。

2)线性偏置。这个特性提供了一个较好的方法解决CTR预估问题中的bias特征,如位置、资源位等。实际应用中我们对位置bias信息的建模,获得了4%的RPM提升效果。

3)模型级联。MLR支持与LR模型的级联式联合训练,这有点类似于wide&deep learning。在我们的实践经验中,一些强feature配置成级联模式有助于提高模型的收敛性。例如典型的应用方法是:以统计反馈类特征构建第一层模型,它的输出(如下图中的FBCtr)级联到第二级大规模稀疏ID特征体系中去,这样能够有助于获得更好的提升效果。

4)增量训练。实践证明,MLR通过结构先验进行pretrain,然后再增量进行全空间参数寻优训练,会获得进一步的效果提升。同时增量训练模式下模型达到收敛的步数更小,收敛更为稳定。在我们的实际应用中,增量训练带来的RPM增益达到了3%。

2.4 大规模分布式实现

MLR算法面向的是工业级的数据,例如亿级特征,百亿级参数,千亿级样本。因此我们设计了一套分布式架构,以支持模型的高效并行训练。下图是架构示意图,它跟传统的parameter server架构略有区别,主要不同点在于我们在每一个分布式节点上同时部署了worker和server两种角色,而不是将server单独剥离出去部署。这背后的考虑是充分利用每个节点的CPU和内存,从而保证最大化机器的资源利用率。

此外,针对个性化广告场景中数据的结构化特性,我们提出并实现了common feature的trick,可以大幅度压缩样本存储、加速模型训练。例如下图示意,在展示广告中,一般来说一个用户在一天之内会看到多条广告展现,而一天之内这个用户的大量的静态特征(如年龄、性别、昨天以前的历史行为)是相同的,通过common feature压缩,我们对这些样本只需要存储一次用户的静态特征,其余样本通过索引与其关联;在训练过程中这部分特征也只需要计算一次。在实践中应用common feature trick使得我们用近1/3的资源消耗获得了12倍的加速。

三、 MLR在阿里妈妈业务应用现状
从2013年起,MLR算法在阿里妈妈及阿里集团多个BU的主要场景(包括阿里妈妈精准定向广告、淘宝客、神马商业广告、淘宝主搜等等)被大规模地应用和尝试,尤其是在阿里妈妈的精准定向广告场景,算法模型创新带来了业务上的重大突破,主要场景下的CTR和RPM均获得20%以上的提升。典型应用如下:

3.1 基于MLR的定向广告CTR预估算法

基于MLR算法的非线性学习能力,阿里妈妈的定向广告CTR预估采用了大规模原始ID特征+MLR算法的架构。具体地,我们刻画一次广告展现为特征向量,它由三部分独立构成:用户部分特征(包括userid、profile信息、用户在淘宝平台上的历史行为特征(浏览/购买过的宝贝/店铺/类目上的id和频次等)、广告部分特征(包括adid、campainid、广告对应的卖家店铺id、类目id等)、场景部分特征(包括时间、位置、资源位等)。这些特征之间无传统的交叉组合,维度在2亿左右。然后我们将数据直接喂给MLR算法,并且应用了结构化先验、pretrain+增量训练、线性偏置等高级技巧,让模型从数据中自动去总结和拟合规律。实践证明,相比于传统的LR+特征工程思路,这种解法更为高效和优雅,模型精度更高,在实际生产中的可迭代更强。

3.2 基于MLR的定向广告Learning to Match算法

Match算法是定向广告中的一个重要环节,它的核心使命是基于用户的人口属性、历史行为等信息来猜测用户可能感兴趣的广告集合。传统的Match算法更多采用的是规则匹配、协同过滤等方法,方法的扩展性不强。在阿里妈妈定向广告系统中,我们研发了基于MLR的learning to match算法框架。简单来说,用模型的方法基于用户的行为历史来学习用户个性化的兴趣,从而召回高相关性的候选广告集。同样地,基于MLR算法的非线性能力,我们可以很容易地将不同的特征源、标签体系融合到框架中,不需要过多地关注和设计特征的交叉组合,使得框架的灵活性大大增强。

四、 总结和挑战
总的来说,阿里妈妈算法技术团队自主创新的MLR模型和算法,在阿里妈妈业务中大范围推广和应用带来了非常好的效果,另外在大数据智能方面,因为省去特征工程,具备了从数据接入到应用的全自动功能。

虽然目前取得了非常不错的成绩,但是未来的挑战也不小:比如初值问题、非凸问题的局部极值、虽然MLR比LR好,但不知道和全局最优相比还有多远;第二,在初值的Pre-train方面需要改进和优化模型函数等等;第三,目前规模化能力方面也需要能够吞吐更多特征和数据,比如采用更快的收敛算法等等;最后,整体的MLR算法的抽象能力也需进一步得到强化。

原文链接

时间: 2024-10-29 07:52:47

重磅!阿里妈妈首次公开自研CTR预估核心算法MLR的相关文章

业余草推荐阿里妈妈自研广告点击率预估核心算法MLR

业余草推荐阿里妈妈自研广告点击率预估核心算法MLR. 小编觉得CTR(广告点击率)预估的能力对于广告系统的意义和重要性,类似于在证券市场上预测股价的能力,优秀的CTR预测,通向美好和财富...(以下转载内容部分较为干货,文科生不易看懂是正常的,静静地欣赏数学之美即可...) 阿里妈妈国内领先的大数据营销平台,拥有阿里巴巴集团核心商业数据.在这里每天有超过50亿的推广流量完成超过3亿件商品的推广展现,覆盖高达98%的网民,实现数字媒体的一站式触达.在这些鲜亮数字背后,是什么样的核心算法在起作用?如

一个让Google、Facebook、Amazon都羡慕的平台,为什么说阿里妈妈是数字营销的未来

有谷歌高管感叹,阿里巴巴是Google+Facebook+Amazon三巨头的数据集合体.阿里巴巴在过去几年的业务布局中,形成了数据丰富.多面性的优势. 毋庸置疑,全球数字营销的未来正在被数据所驱动:如果说美国的数字营销由Amazon.Facebook.Google三家所引领,那么在中国,有一家公司在数据上同时具备这三家美国公司的特长,正在改变中国乃至全球营销的未来--它就是阿里妈妈. 阿里巴巴在过去几年的业务布局中,已经形成了这种数据丰富.多面性的优势,同时,随着整个集团从最大的电商平台向一个

阿里妈妈打通企业推广瓶颈 构建电子商务重要角色

中介交易 SEO诊断 淘宝客 云主机 技术大厅 正值第二届APEC工商咨询理事会亚太中小企业峰会在杭州举办之际,2008年8月初,由阿里巴巴集团旗下阿里妈妈公司举办的<网络营销沙龙>在杭州隆重召开,与会广告主涉及多个行业,包括快速消费品.金融机构.汽车家居.服装服饰.IT家电网络通讯等上百家广告主与阿里巴巴集团战略参谋长曾鸣.阿里妈妈总经理吴泳铭.Nielsen Online副总裁马旗戟就中国企业如何在信息化时代一夜成名展开了广泛交流. 阿里巴巴董事会主席马云通过视频表示,其实很多企业都有做网

你有什么理由还不选择阿里云服务器呢–从阿里云发布自研商用关系型数据库POLARDB想到的

最近几天,阿里云发布自研商用关系型数据库POLARDB的消息可谓是重磅炸弹啊.借用官方宣传的话就是:6倍性能于MySQL并100%兼容/100TB存储容量/2分钟创建只读副本/3分钟创建容灾实例,第三代分布式共享存储架构+软硬一体设计逻辑. 这话对于专业人士肯定容易理解,但很多非专业人士就不一定了,看上去很高大上啊,但一些"冷静"的人也许会有质疑:一是真有那么牛吗,二是对我有用吗? 本文试图用最直白的语言解释给非专业人士听听. 首先,MySQL,是一个开源数据库,前几年已经被甲骨文(O

阿里妈妈邀你聊聊营销与大数据

中国云计算产业最具影响力的盛会之一--2016杭州云栖大会(https://yunqi.aliyun.com/)将在云栖小镇召开.连续举办七届的云栖大会一直是业界了解阿里云计算生态发展和应用趋势.体验前沿技术和产品的最佳平台,来自海内外的上万名开发者.创业者聚集于此,分享着他们对云计算的思考与实践经验.7年来,从产品发布到行业解决方案展示,从关注技术到技术与服务并重,从单一的客户到生态全景的展现,大会的核心内容一直在"进化",而2016年杭州云栖大会,则以"飞天・进化&quo

淡谈百度、谷歌、阿里妈妈三大广告联盟 和网络

中介交易 SEO诊断 淘宝客 云主机 技术大厅 此文只适合得闲者,赶急者跳过! 好了,开始咱们不管上面那句AABBDDEEGG的,是写给看英文的看的!咱们切如主题,谈谈国内的网络情况,这只是个人的一点看法,并不完全代表网络,这篇软文也可以说是聊天,题外话,如果无时间可跳过. 目前中国的互连网已经取得了很大的进步......(.....大家应该能懂什么意思),很多人已经不能满足于2000年的上网模式了,那时我们上网主要就是打几个游戏(JY,ML不多说了)上上刚起步的QQ,现在?已经到了划时代的08

阿里妈妈举办网络营销论坛

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 新浪科技讯 12月18日下午消息,由阿里妈妈举办的论道品牌破局制胜网络营销论坛在北京举行,主题为"大淘宝"新电子商务模式,这也是阿里妈妈与淘宝网合并后首次公开举办活动. 阿里妈妈今年9月份并入淘宝网,成为阿里集团"大淘宝"战略的组成部分.根据介绍,阿里妈妈目前日均可覆盖1.2亿上网人群;而淘宝网经过5年

阿里妈妈能让长尾摆动起来吗?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 点击注册阿里妈妈,销售你的网站广告位>> http://www.alimama.com 8月11日阿里妈妈网站低调上线,其使命是让天下没有难做的广告,第一次将广告作为商品展现在人们面前,任何人都可以在这个平台中交易广告.这样的交易方式在国内的确是头一遭,所以受到广大中小站长拥护.同时凭借阿里巴巴.淘宝网及雅虎的品牌效应,短

阿里妈妈:三年内能否让站长赚钱?

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 (周新宁/文)阿里巴巴集团董事局主席马云在2007年"中国IT两会"之计算机世界互联网年会上首次公开谈论创办网上广告交易平台阿里妈妈的初衷,称是为感恩当年支持淘宝与阿里巴巴的中小网站,三年内不考虑盈利问题,淘宝网当年能在竞争对手的封锁中突出重围,要感谢无数中小网站的支持. 马云称三年内不考虑盈利问题,但是三年内能否