专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用

12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。()

系列文章陆续发布:

  • 专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用
  • 专访阿里巴巴林伟:三项世界级挑战背后的思考、实践和经验
  • 专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化&商铺千人千面
  • 价值1207亿的技术分享,你不能错过“2016双11技术创新”的九大理由!
  • 8位阿里技术大V,解密阿里双11背后的黑科技

12月6日晚20:00,来自阿里巴巴集团的研究员徐盈辉将在在线论坛上发表《在线AI技术在搜索与推荐场景的应用》的演讲。

搜索与推荐作为阿里电商平台辅助消费者与商品(卖家)的互动更加趣味化和效率化的智能中枢,不仅仅可以从海量用户行为数据中寻找行为规律,结构化行为序列,并从规律中预测结果,更重要的是给出有效的流量中心化和去中心化的投放决策,从而实现消费者,卖家,平台三者社会福利的最大化。淘宝的搜索和推荐发展到今天,正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化。今年双11,人工智能技术在搜索与推荐场景里有怎样的创新应用,阿里巴巴研究员徐盈辉将在本次在线论坛中和大家分享。

为了帮助大家更好地了解讲师及议题,评估本次演讲,对讲师进行了采访。

受访嘉宾:

徐盈辉,阿里巴巴研究员,日本丰桥技术科学大学计算机科学博士,阿里搜索事业部搜索排序和基础算法的负责人。他规划和设计了搜索新一代的排序框架体系,建立了集offline-nearline-online三位一体的电商平台个性化搜索体系,推动和完成了搜索实时在线计算体系的规模化和平台化,在技术的先进性和业务的推动上都取得了突破性成果。

以下为采访正文:

:淘宝搜索从大的架构或流程上来说,与传统的搜索引擎有不少相似的地方,除此之外,又有哪些独特性呢?

徐盈辉:淘宝搜索相比于网页搜索的主要差异点在: 

首先淘宝搜索是建立于电商平台之上的,而电商平台的运作目标是希望建立一个三方(买家,卖家,平台)共盈的体系,更多的应该看成是一个computational economics 平台。

a. 动态性:

动态性的特点与网页搜索的动态性有所不同,商品搜索的动态性主要源自于商业活动的变化,平台的市场宣传,商家的经营活动以及消费者购买需求,换言之,就是供需的变化;而供需的满足细化到个体,就需要平台所记录的信息不仅仅停留在商品层面,而是需要记录下消费者 x 商品 这样一个千亿级规模的信息矩阵;

b. 商业属性:

电子商务平台的搜索具备商业流量的根本属性,商家希望所经营商品通过得到足够的曝光而带来成交;因此流量资源也就成了商家必争之地;而搜索作为平台交易保证的中流砥柱,核心目标是在保证平台生态发展的基础上最大化成交规模;

c. 全链路优化

众所周知,相比类似百度这样的网页搜索平台,一个明显的差异是,淘宝搜索平台拥有网购消费者从查询到完成目标商品订单,这样一条完整的行为数据闭合式链路;因此对于用户的一次查询的满意度衡量绝不能止于搜索结果页上看到一个标题相关的商品而发生了点击来判别,post-click之后的商品详情页上的行为,甚至于进入post-pay之后的评论信息都应该成为度量某商品对于某次查询(query)的满意度影响因子;因此,全链路的行为建模会是淘宝搜索体系相比于网页搜索的重要差异之处;既然谈到这点了,再多啰嗦两句,京东也是一家做电子商务的公司,也有着不小的规模,那么如何来看淘宝搜索与京东搜索在全链路优化上的差异呢?从京东模式来看,post-pay环节,由于销售,物流仓储的自营性,可以认为是无差异竞争的;而对于淘宝来说,售后的服务,发货速度,以及纠纷退款等环节是取决于商家与消费者之间的互动来决定的,差异性不言而喻,因此淘宝搜索有必要建立post-pay环节的排序度量因子;

 d. 垂直化

电子商务搜索属于 vertical search 范畴,相比于网页搜索,对于平台上内容的结构化梳理,以及商业平台上积累的买家,卖家和商品关系数据的挖掘都有更高的要求;因此需要建立 micro analysis 和 macro analysis 双位一体的搜索内容加工体系,宏观分析层面指的是:除了目前已经积累并广泛运用的5级类目之外,完善的商品库建设,spu节点,sku节点,品牌库等,都是必不可少的;微观分析层面则从商品的人气指数,销量指数,作弊指数等角度给出商品自身质量的度量信息;使得搜索结果能够为消费者提供,不仅仅停留在标题相关层面的服务,可以通过合理的宏观分析带来的数据结构化,实现高效的结果查询,通过细致的微观分析,保证优质的商品优先展示给消费者;

:可否简要介绍下淘宝搜索算法架构体系?

徐盈辉:目前搜索算法架构体系是基本形成了三层架构:offline, nearline,online 三层体系,分工协作,保证平台既能适应日常平稳的搜索流量中实现稳定有效的个性化搜索以及推荐,也能够去满足电商平台对促销活动的技术支持,实现在短时高并发流量下的平台收益最大化;三层的基本功能分别是:

a) Offline:离线模型训练数据收集,过滤,聚合,深层次表达学习,关系模型学习,输出nearline环节,online 环节需要的数据,特征和模型;

b) nearline:搜素技术和算法团队联手,依托于社区flink,自主研发的流式计算引擎,基于parameter server分布式训练框架的在线深度学习和强化学习的训练体系;实现了毫秒级的日志解析,行为数据抽取,聚合,实时消费者画像描绘,实时人群-商品匹配信号的捕捉;在线机器学习框架:基于实时用户行为数据,以最小化dynamic regret为目标,秒级模型的更新并实现基于用户累计行为事件为触发的模型向online服务的高效输出;强化学习框架:用于排序策略决策,展示比例调整;

c) online:主体是根据offline,nearline输出的多粒度,多维度的预测模型进行高效人-货匹配的打分,从而为用户提供具备良好用户体验的商品展示页面。

:议题介绍中有提到,“淘宝搜索和推荐正在从智能的依靠机器学习能力解决业务问题,向更高效的从不确定性中探索目标的学习+决策的能力进化”,为何选择这样的发展方向呢?

徐盈辉:运用机器学习技术来提升搜索/推荐平台的流量投放效率是目前各大互联网公司的主流技术路线,并仍然在随着计算力和数据的规模增长,持续的优化和深入;然这一路线的核心是如何针对单一问题的算法方案的准确度,更多的是通过更精细的定位样本空间中的特征与目标的correlation来建模,在数据符合独立同分布情况下能够较好完成精准预测的目的;然而随着移动时代的到来,人机交互的便捷,碎片化使用的普遍性,从而很难对变换莫测的用户行为以及瞬息万变的外部环境进行完整的建模。基于监督学习时代的搜索和推荐,缺少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的商品或店铺;虽然可以运用一些辅助性策略来规避这些问题,但本质上,基于监督学习的大多数搜索/推荐模型都很难彻底解决这类问题。真正的智能化搜索和推荐,需要作为投放引擎的agent有决策能力,这个决策不是基于单一节点的直接收益来确定,而是当做一个人机交互的过程,消费者与平台的互动看成是一个马尔可夫决策过程,运用强化学习框架,建立一个消费者与系统互动的回路系统,而系统的决策是建立在最大化过程收益,来达到一个系统与用户的动态平衡。

:今年双11的搜索与推荐场景中,技术做了哪些升级?人工智能技术在其中有哪些应用?又有什么样的效果显现呢?

徐盈辉:主要是深度学习和强化学习技术首次在双11得以大规模应用,人工智能技术的应用:

 a. 搜索/推荐的match,ranking模型

 b. 消费者权益相关的红包智能发放

 c. 基于强化学习的实收搜索/推荐排序策略决策模型

 d. Online Wide&deep learning在淘宝搜索的应用

效果上,成交规模带来显著的提升,bucket实验对比上相比于基准效果有将近20%以上的提升。

:在本次在线峰会上,该内容适合哪些听众?另外,也请罗列下将要分享内容的关键点

徐盈辉:这次分享适合的对象包括:搜索/推荐 算法研发工程师,大数据分析工程师,机器学习算法工程师;

几个关键点:

电商搜索推荐的技术演变、阿里搜索推荐的新技术体系、未来的方向

:对于搜索技术开发者的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)

徐盈辉:追根求源,学会failure analysis,实践加理论学习并举;几本技术书籍推荐给朋友们:

 1. 中文: 

周志华:机器学习,李航:统计机器学习

2. 英文: 

Kevin P. Murphy,  Machine Learning: A Probabilistic Perspective

Christopher bishop, Pattern recognition and machine learning

Yoshua Bengio, Deep Learning

Richard S. Sutton, Reinforcement Learning: An introduction 


“2016双11技术创新“在线论坛专题:

论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖。

时间: 2024-11-01 16:41:45

专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用的相关文章

专访 | 阿里搜索事业部研究员徐盈辉:剖析阿里背后的强化学习技术

剖析阿里背后的强化学习技术 2013 年,DeepMind 在 NIPS 大会上发表的一篇深度强化学习的文章,一举惊艳了学术界.2016 年 1 月,AlphaGo 在一场围棋大赛中击败李世乭吸引全世界的目光,其背后的强大武器正是深度强化学习技术.同年年底,2016NIPS 最佳论文奖也颁给了解决深度强化学习泛化能力较弱问题的论文. 随着深度学习的突破性进展,也促使强化学习的研究前景,重新获得了产业各界的关注.2016 年 8 月,在 ACM(国际计算机学会)会刊一篇名为<强化学习的复兴>的文

『干货』阿里研究员徐盈辉:在线AI技术在搜索与推荐场景的应用

近日,美国权威杂志<麻省理工科技评论>(MIT Technology Review)发布了2017全球十大突破性技术榜单,强化学习(Reinforcement Learning)技术位列该榜单第一位,正是阿里近两年布局和重点投入的技术之一. 该技术曾在2016年双十一期间大规模应用于阿里电商搜索和推荐应用场景.通过持续机器学习和模型优化建立决策引擎,对海量用户行为以及百亿级商品特征进行实时分析,帮助每一个用户迅速发现宝贝.为商家带来投缘的买家,提高人和商品的配对效率,实现了用户点击率提升10%

专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化&amp;商铺千人千面

12月6日-7日,由阿里巴巴集团.阿里巴巴技术发展部.阿里云联合主办,以"2016双11技术创新"为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办.(https://yq.aliyun.com/promotion/139)12月7日晚20:00,来自阿里巴巴的资深技术专家魏虎将在在线论坛上发表<数据赋能商家背后的AI技术>的演讲. 系列文章陆续发布: 专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用 专访阿里

专访阿里巴巴林伟:三项世界级挑战背后的思考、实践和经验

12月6日-7日,由阿里巴巴集团.阿里巴巴技术发展部.阿里云联合主办,以"2016双11技术创新"为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办.(https://yq.aliyun.com/promotion/139) 系列文章陆续发布: 专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用 专访阿里巴巴林伟:三项世界级挑战背后的思考.实践和经验 专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化&商铺千人千面 价

NASA计划后,阿里又透露了在强化学习领域的布局

日前,阿里启动了一项代号"NASA"的计划,动员全球两万多名科学家和工程师投身"新技术战略",预计面向未来20年组建强大的独立研发部门,建立新的机制体制,储备核心科技.而就在不久前,阿里的强化学习技术刚刚入选MIT评选的2017全球十大突破技术榜单,科技媒体"机器之心"的记者最近对阿里巴巴研究员徐盈辉进行了专访,请他详细介绍了阿里在该技术领域的思考.布局以及对未来的判断. 以下是报道全文: 2013 年,DeepMind 在 NIPS 大会上发表

【专栏】谷歌资深工程师深入浅析AlphaGo Zero与深度强化学习

AlphaGo的巨大成功掀起了围棋界三千年未有之大变局,也使得深度强化学习(Deep Reinforcement Learning)渐为大众熟悉.尤其是最新推出的AlphaGo Zero完全摒弃了人类知识,并且三天内碾压了早期版本的AlphaGo,更足显强化学习和深度学习结合的巨大威力.AlphaGo Zero的论文侧重于描述效果,对于方法的论述比较简短,没有相关背景的人读起来可能会有一些困难.本文对强化学习以及AlphaGo Zero算法做了详细描述. 摘要 AlphaGo Zero无需任何人

MIT评出全球十大突破性技术,阿里巴巴“强化学习”和“刷脸支付”入选

2月21日下午,美国权威科学杂志<麻省理工科技评论>(MIT Technology Review)发布2017年全球十大突破性技术榜单.在与Google.微软.IBM等科技巨头的较量中,阿里巴巴分别入选"强化学习"和"刷脸支付"两大突破性技术榜单. 作为全球最为著名的技术榜单之一,<麻省理工科技评论>全球十大突破性技术具备极大的全球影响力和权威性,至今已经举办了超过16年.每年上榜的技术突破,有的已经在现实中得以应用,有的尚需时日,但注定将在

《中国人工智能学会通讯》——4.39 什么是深度强化学习?

4.39 什么是深度强化学习? 现在街头巷尾都在谈论的机器学习,其实是一个非常宽泛的概念,而其中最酷的分支要算是深度学 习(Deeplearning) 和 强 化 学 习(Reinforcementlearning)了.谷歌的 DeepMind 就是将深度学习和强化学习这两者的精髓合二为一,提出了深度强化学习.在 2014 年的时候,这个团队就在<Nature>杂志上发表了题为<Human-level control through deepreinforcement learning&

(转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

  本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA   专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 2017-01-28 Yuxi Li 机器之心 选自arXiv 作者:Yuxi Li 编译:Xavier Massa.侯韵楚.吴攀     摘要   本论文将概述最近在深度强化学习(Deep Reinforcement Learning)方面喜人的进展.本文将从深度学习及强化学习的背景知识开始,包