Netflix每年靠它节省10亿美元,这套个性化推荐系统是怎么回事?

2009年由Netflix发起的Netflix Prize百万美金竞赛,绝对是推荐系统领域最标致性的事件,这次比赛不但吸引了众多专业人士开始投身于推荐系统领域的研究工作,也让这项技术从学术圈真正地进入到了商业界,引发了热烈的讨论并逐渐深入到了商业的核心腹地。

当然,最受益的肯定还是Netflix公司自己,不仅大有取代Amazon成为新一代推荐引擎之王的架势,而且从商业回报本身上看也无疑取得了非常巨大的回报。

7年过去了,Netflix推荐系统的现状如何呢?ResysChina将带来最新的深度解读。

早年举办Netflix Prize竞赛的时候,Netflix推荐系统的主要目标是预测用户对某部影片的评分(1-5分),因为当年Netflix的主营业务还是DVD租赁,打分是Netflix最主要的获取用户反馈的方式。

Netflix虽然仍然在使用着由Netflix Prize衍生出来的算法,但目前Netflix的核心业务模式已经转变为在线流媒体,因此Netflix可以从更多维度去了解用户的使用行为,比如,如何观看(使用什么设备、每天的什么时间,每周的哪天,观看的频度),用户是如何发现视频的,甚至是哪些视频已经推荐给了用户但并未被播放,等等。

Netflix的最新用户数据:注册会员6500万人,每天观看视频的总时长1亿个小时。

Netflix新一代推荐系统的承载形式是「会员首页」,这也是每个会员登录之后的第一页,平均每3小时的视频播放中就有2个小时是从这里发起的。大家都知道,首页几乎是所有产品最最重要的页面,Netflix敢于把首页基于推荐系统来驱动,一来说明他们对推荐系统的重视程度,二来也是表明他们对自己推荐技术的高度自信。

下图一图二是Netflix首页推荐的示例。首页下面那一行行的豆腐块电影海报就是Netflix给出的推荐结果,总共会有40行,每一行都是基于一种推荐算法给出的结果,通常一行推荐结果的数量不超过75个,会综合考虑用户使用的设备等用户体验因素。每一行都会有对应的「标签」用来表明推荐理由,Netflix通过这种方式让推荐结果更直白,用户也更好理解

Netflix讲解了使用到的几种最核心的推荐算法。

1、Personalized Video Ranker: PVR

这是Netflix推荐系统最核心的部分。基于「基因」的电影推荐主要就是由PVR来完成的,比如上图一中左图的第一行是「悬疑电影」,「悬疑」就是一种基因。PVR是千人千面的,即使同一个基因推荐序列,每个用户看到的影片及排序都是不同的。Netflix推荐系统中PVR的应用极其广泛,它是针对每个用户给出个性化推荐结果的基础,比如和「流行度」算法结合,可以让热门推荐也变得个性化起来。

2、Top-N Video Ranker

上图一中右图第一行的「Top Picks」就是Top-N算法最典型的应用。一定程度上可以认为,Top-N是PVR算法的一个特例。PVR关注的是每个推荐序列的排序,而Top-N的核心目标是从所有序列中找出来最最相关的。可以简单理解为,Top-N的计算范围仅限于每个推荐序列头部的数据,优化目标也是从所有推荐序列中优中选优。

3、Trending Now

Netflix发现近期趋势(从几分钟到几天)是预测用户观看行为的有效因子,而且如果能够与合适的个性化方法结合起来的话效果还会更好。Netflix使用trending ranker算法来生成Trending Now的推荐结果。

这个算法在两类场景里尤其适用:1)每隔几个月(比如每年一次)会重复,且每次发生都会有一波明显的短期效应的,比如每年情人节期间的浪漫爱情片;2)突发的、短期的事件,比如媒体大规模报道了一场在人口密集区域登陆的飓风,就会引发一波对于飓风及其他自然灾害相关的纪录片和影片的关注。上图二左图的第二行为Trending Now的示例。

4、Continue Watching

Netflix使用continue watching raker来对是否继续观看某部影片或者某个系列来进行建模。Continue Watching不是未观看完视频的简单陈列,它会综合考虑距离上次观看的时间,是停在了影片的中段、开头还是结尾,使用的什么设备,期间是否又观看了别的影片等众多因素。上图二右图的第一行为此种推荐的示例。

5、Video-Video Smilarity

Because You Watched (BYW) 推荐——基于观看历史的推荐——是一种普遍被使用的非常重要的推荐形态,Netflix自然也不例外,上图一左图第二行就是示例。这类推荐方法的核心是计算两个影片的「相似度」,可以计算基于内容的基因相似度,可以从行为角度计算Item-based协同过滤的余弦相似度,当然也可以综合使用多种方法。这种相似度本身是非个性化的,Netflix会在把BYW推送到个人页面的时候加入个性化相关的度量。

6、Page Generation: Row Selection and Ranking

基于上面介绍的这些算法,Netflix通常会对每个用户都生成一个上万行的推荐结果集合。因此,如何把这些结果收缩到40行内放到用户首页内,且同时要保障相关性和多样性,这就非常讲究功力了,要综合考虑包括时间、场合、不同的家庭成员贡献账号等在在内的多种因素。

2015年以前,Netflix主要使用的是基于规则的方法来生成推荐结果页面。今天,Netflix已经演进出了一种充分个性化且针对相关性与多样性进行了优化的页面生成算法。

7、Evidence

这些算法一起组成了完整的Netflix推荐系统。但还有其他的一起算法,比如推荐理由选择算法,它和推荐算法一起构成了Netflix推荐的完整用户体验,用户依据推荐理由来判断推荐的影片是否适合他。

Netflix把完整的推荐理由放在了示例图中页面左上角的部分,包括,1)对于影片的预测评分;2)内容介绍;3)演员阵容、所获奖项之类的元数据;4)推荐图片的选择能其他UI相关的部分,等等。推荐理由选择算法会评估推荐影片相关的可供显示的所有条目,然后选择出最有利于帮助用户做出判断的条目显示在页面的推荐理由区域。

举个栗子,推荐理由选择算法会决定是应该标明一部影片获得过奥斯卡,还是提示用户这部影片和他最近刚看完的某部影片非常相似;它还会从多个版本的图库中选择出一张最贴合给定推荐理由的图片。

8、Search

Netflix的推荐在整个产品里面可以说是无处不在,从流播放时长来看,80%的用户选择都或多或少受到了推荐的影响。其余的20%来自于搜索,搜索也有自己的算法。用户通常都是搜索影片、演员或者是我们目录提供的基因;我们综合使用了信息检索及相关技术为用户提供最相关的搜索结果。

但是,因为用户的搜索词也会经常触碰到不在我们库里的影片、演员或者是基因,再或者是一些宽泛概念,以至于搜索也变成了某种推荐问题。

比如以下图三为例,1)左图是用户搜索「usual」的结果,推测用户很可能是要搜索影片「The Usual Suspects」,但这部影片Netflix库里没有,图中显示的搜索结果是基于这个推测做出的推荐结果;2)右图是用户搜索「fren」的结果,首先是显示名字里面包含fren的影片,左下角显示相关的演员,然后下面是推测用户是要找「French Movies」给出的推荐结果。在这些例子里面,当「搜索」没有结果的时候,推荐会接管用户请求给出来推荐结果。

对于推荐系统的商业价值,Netflix提到了一个很有意思点,「推荐系统帮助Netflix赢得关键时刻」:当一个会员访问Netflix,Netflix希望能够帮助他在几秒钟之内就找到他感兴趣的影片,以免他去寻找别的乐子。

个性化技术能够帮助人们接触到那些足够小众的内容,而这些内容在其他大众传播方式下,通常会因为诸如广告价值太低等原因,无法有效露出。从Netflix的数据可以很清楚的看到,由于推荐系统的作用,他们整个平台被点播到的影片数量大大的提升了。

Netflix使用一个专门的指标来衡量这一点,ECS - Effective Catalog Size。

当所有的播放都来自于一部影片的时候,ECS等于1;如果播放次数与影片数相等,即每次播放的都是不同的影片时,ECS等于影片数;其它情况ECS介于这之间。如下图,Netflix基于无个性化的数据(热门影片)与个性化推荐PVR的数据做了一个对比分析,在最显著的地方,个性化推荐使得ECS提升了4倍之多,即在同样播放次数的情况下,个性化推荐驱动的播放覆盖到的影片要多得多。

另外一个很重要的点,个性化技术可以显著提高推荐影片的被接受度(Take-Rate),即推荐给用户的影片真正被播放的比率。Netflix同样做了一个对比分析,见下图,黑色线是基于热门度的曲线,红色线是基于个性化PVR指标的曲线,个性化推荐使得接受度有了巨大的提升。

而且除此之外,比接受度提高更有意义的是,优秀的推荐技术使得用户的参与度(观看时长)与退订率都受益匪浅。Netflix的月退订率很低(很小的个位数百分比),大部分是因为支付的问题,真正主动选择退订的非常少。通过在个性化推荐领域的多年耕耘,月退订率得以降低了可观的百分比。月退订率的降低,一来有效延长了会员的付费存续期,二来也降低了为弥补流失用户所要付出的成本。

除了覆盖度、接受度这两个具体指标之外,全面评价推荐系统的好坏面临的挑战极大。Netflix给了一个例子,对应「纸牌屋」给出的两组推荐结果见下图。

直觉上大家通常会觉得下面这组推荐结果更好,因为把老版本的纸牌屋给推荐出来了。然而并没有。Netflix实际业务数据表明,图中上面第一组的推荐结果更好。当一个推荐系统面对海量的用户以及大量的待推荐条目的时候,如何评价推荐结果就是一件极其核心的事情了,你总得搞清楚自己到底在忙活什么对吧。

Netflix采用的是付费会员的商业模式,因此付费会员数就是非常有效的评价指标,这个数字受三个部分的影响:1)新会员转化率;2)老会员退订率;3)已退订会员的召回率。

好的推荐系统无疑可以让用户存留率增大,存留率又和用户的观看时长非常有关系。

Netflix在大量使用AB测试的方法来不断的优化相关的指标,一个典型的从离线实验到在线AB测试的流程如下图所示,这个整套流程基本上也是成熟推荐系统的标配套路了。需要重点考虑的问题,1)如何准确地定义目标;2)如何合理地切分数据和流量;3)如何真实评价实验结果。

  当然,Netflix的推荐系统也还是有各种提升空间的,Netflix列举了几点。

更有效的实验框架:能够支持离线实验算法更快速的迭代,并且可以更有效预测线上AB测试结果;在参与度指标体系中如何能够更好地平衡电影、连续剧、专题节目等各种形式的内容等。

适应全球化的算法:Netflix计划在2016年底进入全球市场,不同版权要求的内容会有相应的限制,比如某些影片只限于某些国家播放,如何统一有效地利用Netflix全球数据来最大化某个区域的推荐效果。

控制正反馈带来的偏置效应:推荐系统是典型的强正反馈系统,用户参与度越高的影片会进一步推荐给更大的用户群体,然后这些影片就又会更活跃。如何能够找到更有效的方法引入随机性,从而学习到更健壮的模型。

更好的推荐页面构建方法:推荐页面构建还是一个相对新颖、研究比较少的领域。

会员冷启动问题:这个是推荐领域老大难的问题了,Netflix也不例外,PVR算法在老用户上的效果要明显好于新用户。如何能够在新用户首月体验期内更好的拿下他,价值巨大。

共享账户的问题:尽管Netflix已经提供了一个付费会员支持多个独立账号的功能,但多个家庭成员共享一个账号的情况仍然很常见,需要能够更加智能地自动化解决这个问题。

提供更好的推荐理由:如何为给到每一个用户的每一个推荐结果都搭配上更个性化的推荐理由。

据Netflix估算,个性化推荐系统每年为它的业务节省的费用可达10亿美金。打造一套优秀的推荐系统面临着很多挑战,但无疑又价值巨大。

====================================分割线================================

本文转自d1net(转载)

时间: 2025-01-01 06:02:03

Netflix每年靠它节省10亿美元,这套个性化推荐系统是怎么回事?的相关文章

Netflix们的崛起将让有线台明年少收入10亿美元

Netflix已成为有线台的死敌 北京时间9月29日消息,据外媒报道,对于美国的有线电视运营商(收费台)来说,用户退订是它们最不愿看到的消息.不过,在经历了多年的辉煌后,这一时刻还是来了. 近日,管理咨询公司cg42发布了最新报告,读了这份报告,恐怕有线台的高管们心都凉了半截. 报告显示,明年预计会有80万付费用户不再给有线台续费,这将为有线台带来10亿美元的损失.不过,消费者却可以从中受益,因为他们转向使用Netflix或亚马逊后,每个月平均能省出104美元. 过去几年互联网的发展是拐点到来的

Netflix称亚马逊每年花10亿美元买视频播放权

中介交易 SEO诊断 淘宝客 云主机 技术大厅 Netflix CEO哈斯廷斯称亚马逊因购买流媒体视频内容播放权而每年需要花费5亿到10亿美元. 新浪科技讯 北京时间11月17日凌晨消息,Netflix董事长兼CEO里德·哈斯廷斯(Reed Hastings)周五称,有一天亚马逊将给Netflix带来真正的竞争;但他同时表示,在做到这一点以前,亚马逊CEO杰夫·贝索斯(Jeff Bezos)仍将不得不花费大量资金. 哈斯廷斯表示,亚马逊因购买流媒体视频内容播放权而每年需要花费的资金在5亿美元到1

14家超过10亿美元估值的大数据公司,有何过人之处?

提到大数据公司,我们首先想到的可能就是帮助美国消灭本拉登的 Palantir,这家公司的价值已经超过200亿美元.除此之外,CB Insights 还整理了另外 13 家估值超过 10 亿美元的大数据公司. 大数据非常重要.关于大数据的兴起,IBM 的看法是: 我们每天创造的数据达 2.5万兆字节--仅过去两年,就创造出现在世界上 90% 的数据.这些数据来自各处:比如,搜集气候信息的传感器,社交媒体上的帖子,数字图片和视频,购物交易记录,手机 GPS 信号等. 数据量无比庞大,为了从这些数据中

Facebook 借开放运算项目三年节约 10 亿美元

Facebook联合创始人.首席执行官马克·扎克伯格(Mark Zuckerberg)周二在纽约圣何塞出席"开放运算项目峰会"(Open Compute Project Summit)时表示,通过开放运算项目,Facebook在过去三年中已节约了超过10亿美元资金. 企 业通过降低数据中心的能耗,不仅能够减少对环境的过度影响,而且还能够削减支出.作为全球最流行的社交网站,Facebook一直求通过多种途径来降低其 数据中心的能耗.2011年4月,Facebook对外发布开放运算计划,该

【硅谷连线】谷歌10亿美元收购游戏视频Twitch

中云网每天连线硅谷,呈现最新鲜资讯!这里的"硅谷"指的是国外具有典型性和创新性企业代表. 1. 房产网站Zillow宣布以35亿美元收购竞争对手 <http://tech.163.com/14/0728/22/A29C4HO7000915BF.html> 据美国媒体报道,Zillow当日宣布以35亿美元股票收购竞争对手Trulia.合并后两家公司将继续保持独立的品牌,但Trulia首席执行官佩蒂·弗林特(Pete Flint)将由Zillow首席执行官斯本塞·拉斯考夫(Sp

美国教材租赁网站Chegg估值接近10亿美元

美国教材租赁网站Chegg 新浪科技讯 北京时间8月22日下午消息,美国在线教科书租赁和教育服务公司Chegg以现金加股票的形式收购了在线辅导服务公司Student of Fortune.Chegg旨在为大学生提供一站式服务,该收购交易为其拓展其业务规模的一部分. 具体的收购条款并未披露,但知情人士称,Student of Fortune网站已经实现盈利,而且利润率很高,因为该公司只有5名全职员工. Chegg最近一次融资是在去年9月份完成,当时他们从香港投资公司Ace Limited融资750

Coupons今年为消费者节约10亿美元

北京时间11月23日午间消息,今年以来,电子优惠券平台Coupons所提供的优惠券为用户节约的总金额已超过10亿美元. 该公司还宣布,今年前9个月,Coupons售出的优惠券帮助消费者节约了8.54亿美元,与去年同期的5.34亿美元相比增长了57%.同一时期,报刊提供的优惠券的优惠额只增长了11%. Coupons首席执行官史蒂文·鲍尔(Steven Boal)认为,前所未有的增长直接得益于经济萧条,促使人们为几乎一切商品寻求优惠. 他说:"电子优惠券越来越受到消费者和企业营销人员的欢迎,原因有

【分析】雷军10亿美元云赌注会赢吗

10亿美元投资金山云,12亿人民币入股美的,这是雷军45岁生日前后完成的大手笔.只不过前者是以金山软件董事长的身份,后者则以小米董事长的身份,这种双重身份不仅有时连雷军本人也会混淆,而且企业级的金山和消费级的小米之间确实也有着密不可分的联系. 暂且放下董明珠和雷军的赌局,让我们来冷静分析一下在热闹的云服务领域,前有BAT布局,后有微软.亚马逊.IBM的曲线落地,甚至还有青云.七牛等初创企业搅局,那么,雷军在金山云上的10亿美元豪赌会赢吗? 金山云的路径依赖 先来翻翻金山云的"老底儿".

中国联通与西班牙电信互购对方10亿美元股份

9月6日消息,中国联合网络通信(香港)股份有限公司(以下简称"中国联通")和TELEFóNICA S.A.(以下简称"西班牙电信")于 9月6日签署战略联盟协议及股权认购协议.西班牙电信增持中国联通的股份至约8%.同时中国联通认购西班牙电信约0.88%的股份.本次交易使两家公司合计拥有5.5亿的用户规模,约占全球人口的8.6%. 根据双方签署的战略联盟协议,中国联通和西班牙电信将在联合采购.移动服务平台开发.跨国客户服务.国际漫游及技术研发等业务领域进一步深化合作.