12月6日-7日,由阿里巴巴集团、阿里巴巴技术发展部、阿里云联合主办,以“2016双11技术创新”为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办。()12月7日晚20:00,来自阿里巴巴的资深技术专家魏虎将在在线论坛上发表《数据赋能商家背后的AI技术》的演讲。
系列文章陆续发布:
- 专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用
- 专访阿里巴巴林伟:三项世界级挑战背后的思考、实践和经验
- 专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化&商铺千人千面
- 价值1207亿的技术分享,你不能错过“2016双11技术创新”的九大理由!
- 8位阿里技术大V,解密阿里双11背后的黑科技
大数据时代下,阿里巴巴在平台积累了丰富的经验,并正在从赋能平台向赋能商家演进。阿里利用机器学习与人工智能技术,为商家提供一系列更加智能的产品,帮助他们更好的经营。本次分享,魏虎将为大家介绍阿里是如何利用大数据技术来为商家赋能的,包括千人千面的商铺个性化、智能海报、头条等。
为了帮助大家更好地了解讲师及议题,评估本次演讲,对讲师进行了采访。
受访嘉宾:
魏虎,阿里巴巴资深技术专家,早期负责淘宝网站架构,主导了淘宝多个大型架构变迁项目。后期从事大数据方向的技术研发,主导研发了阿里集团的个性化推荐平台,推动并支撑阿里所有重要个性化推荐场景的落地。目前的主要工作是通过大数据和人工智能相关技术提升阿里商家的效能,从而为商家赋能。
以下为采访正文:
:你曾主导研发了阿里的个性化推荐平台,从推荐系统升级到推荐平台,经历了哪些阶段?可否简要介绍下?
魏虎:阿里的个性化推荐平台支撑了阿里几千个个性化推荐和个性化排序的场景,基本上覆盖了所有消费者能接触到的页面, 回顾个性化推荐平台的发展历史,算是经历过三个阶段:
- 第一个阶段:10年到12年,我们的研发资源分成两类角色,一类是算法工程师,一类是引擎工程师,当时推荐方案和推荐引擎的代码耦合在一起,新增加一个推荐场景的推荐方案,都需要引擎的开发同学帮助算法同学实现线上的推荐逻辑。主要的推荐方案都还是基于离线hadoop运算好结果,推荐引擎把结果自动化的导入到在线检索引擎,然后再编写一些简单的在线过滤和排序逻辑,每次开发一个方案都要经历代码测试、发布的流程,效率低下,开发上线一个方案可能都要几天时间甚至更长。
- 第二个阶段:13年到14年,推荐业务发展迅速,推荐场景已经从独立的小的模块延升很多频道页面的个性化排序,很多团队都希望有推荐场景的支持,按照之前的架构,每上线一个推荐方案,都需要一个引擎的开发同学与算法同学对接,以及进行引擎的重新发布,这样就导致了平台的开发资源成为了业务迭代的瓶颈。为此我们考虑PaaS的设计思想,就是允许算法策略是可以基于平台的组件进行二次开发和部署上线。另外我们开发SDK,帮助算法同学进行本地的代码开发。通过SDK算法同学可以完成方案代码的编写、本地Debug、方案的更新与提交。对平台层面,我们抽象出了容器,并提供方案代码的线上编译和发布功能,容器自动加载和执行编译通过方案。经过这次架构调整后,平台开发人员得到解放,算法同学得到了充分的自由,可以基于平台进行快速的算法迭代和开发。
- 第三个阶段:14年开始,推荐平台的架构从离线全面走向实时,这里包括特征的实时更新,模型的实时预测,模型的在线训练,另外把在线预测这块单独切换出来一个预测服务,专门用于在线对召回的候选集进行实时预测打分,同时我们为了提高算法研发效率,还开发了一系列可视化工具能够让算法同学不需要编码,就可以通过可视化界面配置出离线模型,在线模型,甚至是在线的推荐方案。有了这一系列改进后,算法迭代周期甚至可以按分钟级别来迭代,大大加快了算法优化的进程,这也反过来推动各个业务线快速落地推荐的能力。
:在做平台的过程中,有没有遇到特别有挑战性的地方或坎?都是如何解决的,请举例分享。
魏虎:平台构建和引擎构建的思路完全不一样,平台的理念是做好容器,并且把推荐的逻辑进行高度抽象和模块化,能够让算法同学基于这些模块化组件进行高效的推荐方案的编写。推荐平台就要专注推荐方案的自动部署,资源隔离,高性能的召回存储检索引擎,实时预测引擎,实时特征更新引擎还有在线模型训练引擎等等这些高度抽象独立的单元。这每一块都是相当有挑战的技术点。
:去年双11已经首次全面实现了通过大数据驱动、高度个性化的消费购物体验,做到了千人千面,今年有何创新或提升?
魏虎:今年双11会场个性化在去年的基础上取得了进一步的提升,例如主会场楼层个性化排序点击率相比去年有近20%的提升。主会场个性化背后的技术体系相当广泛,今年包括深度学习、增强学习、在线学习等前沿技术都已经成功应用并取得显著的效果。这些技术的研发离不开阿里巴巴先进的大数据和分布式计算平台的支撑,能够支持包括MPI、Parameter Server、多机多卡的分布式GPU集群、流式计算等分布式算法架构。
:阿里如何通过数据、人工智能技术赋能商家,可否以某个应用场景举例说明?在商家客户运营转化效率上,实现了怎样的效能提升?
魏虎:今年我觉得最大的创新是我们做到了全站个性化,我们的商家也能参与到自己商铺的千人千面的设计中,双11期间超过23万店铺实现了千人千面,覆盖的流量达到近40亿。当消费者进到店铺或宝贝页面,我们的AI引擎会根据用户的行为偏好等维度,根据商家的配置,去呈现最适合当前这个用户的精准内容,通过这样的卖家可参与的千人千面场景设置,做的好的商家成交转化率能有几倍的提升。
:在本次分享中,将主要分享哪些技术点?适合什么样基础的听众?
魏虎:阿里巴巴已经在平台积累了丰富的经验, 现今阿里巴巴从赋能平台自己转向赋能商家,我们利用ML&AI技术为商家提供一系列更加智能的产品帮助他们更好的经营,本次分享为大家介绍阿里是如何利用大数据技术来为商家赋能以及背后支持的技术。本次分享适合对大数据有一些基本的概念的听众。
:对于学习个性化推荐的开发者的成长,有哪些建议或者经验分享?以及请你推荐一本最喜欢的技术书籍(书单更佳)
魏虎:推荐这块技术分两块:一块是引擎,一块是算法,这两个密不可分。引擎这块就需要对检索引擎、流计算引擎、RPC等有所掌握;算法这块,推荐只是ML&AI领域的一小块,如果要把推荐算法做的更好,除了推荐算法本身,ML&AI领域很多算法都要去了解,包括现在比较热的深度学习和增强学习。推荐大家学习斯坦福机器学习公开课,能系统化的学习ML&AI的基础技术。现在机器学习已经非常火了,市面上也有很多比较新的推荐系统和机器学习的书大家都可以阅读和实践。
“2016双11技术创新“在线论坛专题:
论坛火热报名中,成功预约报名,享受峰会结束后全套资料下载并可参加抽奖