专注年轻一代,基于E-MapReduce梨视频推荐系统

在2016杭州云栖大会的“开源大数据技术专场”上,梨视频大数据负责人杨智带来了《基于E-MapReduce梨视频推荐系统》的精彩分享。分享中,他重点介绍了梨视频中基于阿里云的数据处理系统和梨视频推荐系统,精彩不容错过。

以下内容根据演讲PPT及现场分享整理。



梨视频简介

梨视频是中国领先的资讯类短视频生产者,由资深媒体背景的专业团队和遍布全球的拍客网络共同创造,专注为年青一代提供适合移动端观看和分享的短视频产品。

梨视频是跨平台的、开放的新媒体公司,其视频业务覆盖多个领域,经过深度编辑的聚合内容和独家的原创报道,与创新技术和工具结合后,为移动互联网时代的视频生产和消费提供了新标准。

基于阿里云的数据处理系统

下面来介绍一下梨视频采用阿里云搭建的数据处理系统。对梨视频应用而言,数据的来源分为两方面:一方面是用户在终端的使用痕迹;另一方面是在应用上投放的内容,例如视频的标签、属性等。

日志收集

获取用户数据的最简单的办法是进行用户日志收集。首先在客户端进行日志压缩(节省流量),定时上传日志;日志上传后会推到日志收集服务中,这里梨视频采用阿里云的ECS搭建了一套Nginx日志收集服务器;之后利用阿里云提供的组件Logtail将日志推送到Log Store上;Log Store是一站式日志收集服务系统,通过配置、过滤将所需的日志推送到目标区域,它提供了两种消费途径:一是通过阿里云EMR中的Spark Streaming消费Log Store中的日志,进行实时分析、统计;二是将日志推送到阿里云OSS上永久备份,以供后期使用。

基础数据中心

日志收集之后,需要对数据进行处理。梨视频以EMR为中心,构建了大数据处理中心。产品上所有基础数据都会进入EMR,并依托EMR进行任务管理,数据存储;后台服务器产生的日志、业务上的数据都将定时推送到集群中进行分析;数据分析之后,有两个输出方向:统计结果等数据会存放到MySQL中,供业务系统查询使用;实时反馈的数据会存入Redis中,以供推荐引擎等实时使用。

数据层面,梨视频对数据进行了分层:最底层的数据是推送到集群上的日志以及推送到集群上的业务数据表等;基于数据表构建了一层基于场景的数据,例如用户观看了某个视频,该视频的详细信息都会存放在场景的数据表中;之后再进行一些宽表的统计,如某个视频的点击量,播放时长等信息。宽表又分为内容维度宽表和用户维度宽表,业务开发人员无需关心底层数据的存储和日志逻辑,只需要查看宽表即可获得想要的数据,实现了业务开发人员和底层数据的隔离。

上图是梨视频内的日志和数据处理数据流图。图中左上角是日志推送部分,浅蓝色部分代表不同类型的日志,如APP端、服务端等 ,将日志推动到Log Store中;之后通过两种方式消费日志:一是直接推送到OSS中;二是推送到EMR Spark Streaming中,用于统计、实时分析、搜索等。图中右上角是业务数据推送部分,各类业务表推送到集群中进行分析、存储等。

梨视频推荐系统

梨视频推荐系统主要由三部分组成:Online、Near Online、Offline。该推荐系统是基于阿里云提供的组件搭建而成,主要涉及了LogStore、EMR、Redis、RDS等。

下面来具体看一下每部分的工作方式。

Online:召回和排序

 

Online主要用于相应用户请求,其中主要包含两大功能:召回和排序。Online部分是采用两个模块实现的:底层是基础搜索模块,主要完成的是工作是构建索引,依据基础排序模型排序;上层是高级搜索模块,通过响应上层请求,获取用户画像数据,如用户ID,标签,根据请求,将画像数据转化为召回条件。高级搜索模块将召回条件下发到基础搜索模块,基础搜索模块会提供与这才召回条件相关的内容,返回给高级搜索模块。高级搜索模块获得召回结果后,对其进行排序,通常会根据语义模型排序、效果排序以及规则排序(保证多样性)。

Near Online:实时反馈系统

Near Online部分利用EMR中Spark Streaming实时消费日志搜集系统Log Store中的日志,分析的内容分为两个部分:一是用户24小时内兴趣分布的状况,24小时以前的数据通过离线的方式按天反馈到线上,用户24小时之内的内容通过实时的方式反馈,构建成用户兴趣分布图;二是用户24小时看过和不喜欢的内容会在三到五秒内反馈给模型,下一次推荐时不再出现该类内容。

Offline:用户兴趣画像

用户画像是推荐系统中的重中之重,推荐系统可以根据用户画像给用户推荐其可能感兴趣的内容。新闻趋势和其他领域略有不同,它是随着时间、事件不断变化的,如八月份的奥运会、目前的美国大选等。那么该如何把握新闻的趋势呢?一是根据自身发布的内容,在某一趋势到来时,发布的内容必然会偏向该趋势;二是整站的用户表现,多数用户会关注目前最火的新闻,两者相综合,既可以形成新闻趋势。另外一点是个人长期兴趣,比如长期关注娱乐、体育版块,通过分析用户长期在整站的行为,形成用户长期兴趣分布。新闻趋势和个人长期兴趣通过贝叶斯模型,整体再结合时间的分布构建出用户长期兴趣模型(即用户画像)。

在Offline部分,还需要对内容进行质量评估。之所以对内容进行评估,是因为在基础搜索模块需要对内容进行排序。目前,梨视频引进了基于人类记忆遗忘模型对质量进行评估,该模型遵循具有以下三个原则:

  •  时效性强的内容,热度分衰减更快;
  •  时效性弱的内容,热度分衰减慢;
  •  最近发布的内容较历史稿件更有优势,更容易被用户发现。

 

计算机领域会有一些策略存在,进而会涉及到优化问题;而优化的前提是必须明确现状,明确现状则就需要对现状进行评估。这里主要介绍下单用户实时评估和多用户批量评估。单用户实时评估,梨视频是通过自研系统,只需要输入用户ID等信息,就可以在后台看到用户最近的行为、模型建模之后的情况以及系统对应推荐的内容,可以一目了然地看到推荐内容是否和用户相匹配。多用户批量评估所关注的是给所有用户推荐的内容是否存在偏差,例如想了解内容发布时是不是全部是社会相关信息,可以通过批量查看用户的分类、属性进行判断。

整个推荐系统由两个闭环组成:实时闭环;离线闭环。实时闭环是指用户的操作3到5秒内可以反馈到Spark Streaming中,之后再快速推到线上,使其能够快速影响到下一次推荐结果。离线闭环是指日志会推到OSS中,每天对日志进行建模后再推到线上,第二天再回到数据中形成闭环。离线闭环和实时闭环配合实时评估和实验评估实现推荐系统整体可控,研发人员可以有的放矢地优化推荐结果。 

总结

最后简单进行一下总结,梨视频整体架构主要由数据处理系统和推荐系统构成:

  •  数据处理系统方面,首先需要进行日志收集,在客户端压缩传输,基于阿里云组件搭建日志搜集系统;同时以EMR为中心构建数据处理中心;此外,对数据进行逻辑分层,基础数据全面支撑业务需求。
  •  推荐系统方面,召回模块按照兴趣召回候选集合;排序模块可根据需求和目标进行调整和融合;通过用户行为实时反馈提升用户体验;根据新闻趋势和个人长期兴趣建立用户画像;此外,引进基于人类记忆遗忘模型建模内容基础质量打分体系;通过评估系统让整体推荐系统变得可控。
时间: 2024-10-31 10:56:47

专注年轻一代,基于E-MapReduce梨视频推荐系统的相关文章

梨视频:基于阿里云E-MapReduce搭建视频推荐系统的实践

   (来源:C资讯)     专注新闻资讯的梨视频近来表现亮眼.   梨视频由前澎湃新闻掌门人邱兵创立.   在上线之前,它就获得了黎瑞刚华人文化近1亿美元投资,旗下<微辣>栏目总播放量已经超过4亿,并在上线1个月后获得"年度视频新媒体"大奖.   这样一款脱胎于传统媒体的创业型短视频软件,在视频领域异军突起,不仅让内人士在感叹梨视频内容生产力之强大的同时,也诧异于是谁在为梨视频的庞大用户体量提供技术支撑.保证视频流畅?   今天就和大家分享梨视频如何基于阿里云快速搭建一

开源大数据技术专场(下午):Databricks、Intel、阿里、梨视频的技术实践

开源大数据技术专场下午场在阿里技术专家封神的主持下开始,参与分享的嘉宾有Spark Commiter.来自Databriks的范文臣,HDFS committer.Intel 研发经理郑锴,逸晗网络科技大数据平台负责人杨智,Intel技术专家毛玮,以及阿里云技术专家木艮. Databricks范文臣:Deep Dive Into Catalyst--Apache Spark 2.0's Optimizer 在本次演讲中范文臣首先重点介绍了Catalyst.在Spark中,DataSet以及Dat

三个月达到百万日活,梨视频如何借助云计算做最好看的资讯短视频?

摘要:本次阿里云行业圆桌论坛上,梨视频CTO刘隽.阿里云云计算频道张勇(花名:身行)以及阿里云业务架构师刘欣(花名昕晖)共同探讨了梨视频的上云实践之路,云上架构设计.视频个性化推荐以及对于安全与运维的思考.对话行业大咖,引领云端科技,畅谈云上话题,尽在阿里云行业圆桌论坛. 以下内容根据阿里云行业圆桌论坛视频整理而成. 本期嘉宾介绍:刘隽,梨视频CTO:刘欣(花名昕晖),阿里云业务架构师:张勇(花名身行),阿里云内容运营. 梨视频简介 梨视频是2016年上线的资讯类短视频平台,目标是为新一代的年轻

探究亚洲年轻一代消费:实体线上体验都重要

3月27日,世界零售业大会亚太分会在京开幕.佐丹奴国际公司董事长刘国权(右)与世界零售业大会亚太分会主席保罗·马丁交流.张居生 摄/CFP 未来世界的消费者逐渐年轻化,亚太地区有30亿年轻人,年龄都在15-24岁,这些年轻富有的一代消费者很快就会成为未来消费大军的主流.3月底在京举行的世界零售业大会亚太分会透露的信息显示,未来消费的核心趋势将是体验化和数字化消费. 随着亚洲从世界采购基地向世界发展最快的消费经济体转型,亚洲市场正在经历一场浩大的重新整合.在众多亚洲国家中,中国的经济发展尤为快速,

淘宝天猫分进合击打造新零售基座 年轻一代管理者出任总裁

阿里巴巴新零售战略将进入全新阶段.2017年12月27日,阿里巴巴集团CEO张勇在员工公开信中宣布,淘宝.天猫将作为阿里新零售的基座,聚合阿里物流.金融.技术.云计算等基础能力帮助全社会商业升级.集团决定,任命集团副总裁蒋凡出任淘宝总裁,任命集团副总裁靖捷出任天猫总裁. 天猫双11背后是整个阿里生态及全球商业全面走向新零售 新任命的业务总裁均为70后80后年轻管理者.蒋凡曾是创业公司创始人,加入阿里后推动了淘宝走向数据驱动,实现千人千面,并带领团队构建了淘宝内容体系.靖捷来自传统品牌和零售企业,

基于Deep Learning 的视频识别方法概览

基于Deep Learning 的视频识别方法概览 析策@阿里聚安全 深度学习在最近十来年特别火,几乎是带动AI浪潮的最大贡献者.互联网视频在最近几年也特别火,短视频.视频直播等各种新型UGC模式牢牢抓住了用户的消费心里,成为互联网吸金的又一利器.当这两个火碰在一起,会产生什么样的化学反应呢? 不说具体的技术,先上一张福利图,该图展示了机器对一个视频的认知效果.其总红色的字表示objects, 蓝色的字表示scenes,绿色的字表示activities. 图1 人工智能在视频上的应用主要一个课题

基于android的无线视频监控,使用源码可是在pc端显示不了

问题描述 基于android的无线视频监控,使用源码可是在pc端显示不了 http://www.cnblogs.com/feifei1010/archive/2012/08/31/2664939.html在这里可以下载到源码这个是pc端开启服务器这个是android上运行不管是我输入0.0.0.0 还是127.0.0.1 我在pc端的程序看不到视频接入 请大神给予指导 谢谢了 解决方案 http://wenku.baidu.com/link?url=QOLtRQ2FoJRl80QAKsz8OaU

基于用户画像的实时异步化视频推荐系统

前言 这个月做的事情还是蛮多的.上线了一个百台规模的ES集群,还设计开发了一套实时推荐系统. 标题有点长,其实是为了突出该推荐系统的三个亮点,一个是实时,一个是基于用户画像去做的,一个是异步化. 实时主要体现在三个层面: 1.用户画像中的的短期兴趣模型实时构建. 也就是你看完一个视频,这个视频几秒内就影响了你的短期兴趣模型,并且反应到你下次的推荐中. 2.候选集实时变更. 在我设计的推荐系统中,候选集的概念是不同类型的待推荐给用户的视频库,一个用户并不能看到某个候选集的全部,而是能够看到经过匹配

郭台铭称将退休 公司交给年轻一代

京华时报讯(记者古晓宇)昨天,记者了解到,http://www.aliyun.com/zixun/aggregation/34812.html">鸿海集团董事长郭台铭近期对外表示,自己很快就会退休,然后将公司交给年轻一代,不过他也表示,自己的儿子和侄子.侄女不会成为接班人. 郭台铭今年已经64岁了,实际上早在2001年时,他就曾对外表达将在2008年退休,但全球金融危机打乱了他的计划.这一次他又重新提起自己的退休计划."我很快就要退休了,公司会交给年轻一代."郭台铭说道