数读视频网站:透视优酷土豆的大数据工程

每个去视频网站看过视频的用户,都知道,在看完一个视频之后,会有相关的视频推荐,这个不足为奇的功能,就是大数据的体现,视频行业在不留意间早就成为了大数据的弄潮者。

琢磨用户喜欢什么样的视频,提高寻找内容的效率,这是大数据在视频行业应用的一个小小案例,本期《数读》聚焦视频行业,看大数据在视频中的数字游戏。优酷土豆集团CTO姚健向我们娓娓道来优酷土豆在大数据上的实践。

图:优酷土豆集团CTO姚健

推荐视频:看上去简单的高深应用

姚键是优酷土豆集团CTO,据他介绍,优酷新上线的首页页面上,光是导航栏上的视频分类就有21个,21个不同类型的内容,这意味着会有各种不同的用户来优酷看视频,要想给不同的用户推荐他们喜欢的视频,这靠的是一个叫做“协同过滤推荐”的技术。

百度百科上这样介绍协同过滤推荐(Collaborative Filtering recommendation):“是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。”

这是亚马逊、谷歌等互联网巨头都在使用的技术。亚马逊会告诉你“买了A商品的顾客也同时购买了B商品”,Youtube上,一个视频播放结束,马上就会出现相关推荐视频。

看上去简单的相关推荐,其实在优酷的视频推荐中涉及上百个参数,每次要调整参数,都要手动调整十几甚至几十个参数,每天推荐视频的数据模型中要涉及的数据高达几十亿。

一次小小的参数调整,带来的后果,可能是当天视频观看带来几百万的增长,也可能是在算法稳定后的未来几周,甚至几个月带来视频观看量的曲线变化。

当然,数字证实,通过这种协同过滤推荐给用户的视频是靠谱的,因为在海量的视频中寻找自己喜欢的视频成本是很高的,推荐视频的打开率也令人满意。

优酷土豆心中的“大数据”

数据的挖掘、分析,用在推荐视频上,还只是个小意思。优酷在2010年推出的“优酷指数”把大数据精神进一步强化,把视频播放周期、用户核心特征、用户播放行为、视频热度排行等数据进行展示。

姚键这样介绍优酷指数诞生的背景:“2010年的时候,优酷在PC互联网时代已经成为最有影响力的视频网站,优酷希望能够在行业内树立一个标杆,在强化优酷品牌的同时,也打造优酷指数这样一个概念。”

今年,优酷指数进而演变成“中国网络视频指数”,加入了土豆网以及移动客户端的视频数据,对数字感兴趣的用户,可以从这个指数里读出很多内容。

作为一款平台化的产品,“中国网络视频指数”在优酷土豆集团中的参考价值无处不在,从广告售卖,到版权购买,再到播放器产品的优化,等等,处处都能够作为指导依据。

据姚键透露,优酷土豆集团推出的数据报告给节目制作方、影视剧公司、第三方分析机构等了解视频节目的播放信息,以及观众人群的分析提供了依据;在广告销售方面,能够为广告主呈现出用户行为特征,提供广告投放价值的分析;在进行版权购买的时候,可以根据指数的走向来帮助决策;公司内部,哪怕是播放器产品的用户体验优化,都可以查看数据分析结果,查看按钮的摆放和使用频率等。

这些价值都是显而易见的,还有我们在表面看不到的,通过数据分析的结果来指导优酷土豆集团的自制内容。

“比如说优酷有很多自制的内容,有很多的微电影、综艺节目等等,这些播放数据可以显示出哪些题材是用户喜欢的,用户看到哪里就看不下去了,在哪里是拖放观看的,一系列的用户行为可以清晰地告诉内容制作人员,应该怎么去剪辑视频,怎么去选择内容题材。”姚键说。
 
其实这个过程也是对视频质量进行分析的过程,在优酷土豆的搜索、推荐中按照视频质量进行排序,反过来也提高了推荐成功率。

然而,大数据读出的数据,其指导意义还远不止此。

每部电影、电视剧在播出后都会有对应的数据,哪些演员受欢迎,哪些题材受追捧,通过分析数据就可以慢慢发现背后的原因,把这个受欢迎的故事讲出来,这就是可见的未来。

时间: 2024-09-01 02:07:54

数读视频网站:透视优酷土豆的大数据工程的相关文章

最受欢迎视频网站是优酷土豆

1月8日消息,Hitwise昨日发布2012年用户网站访问指标排名,其中包含总访问时长.总访问次数.总浏览页三项指标,数据显示,各项指标均进入Top10的视频网站仅有优酷土豆两家,网民再一次用行动对"最喜欢"的视频网站作出了表态. 总访问时长.总访问次数.总浏览页作为一直以来评估网站必备的三项指标,始终代表着网民"用鼠标选择"的结果.本次Hitwise的统计调查也不例外,在各项排名中,优酷.土豆作为中国互联网视频行业稳居第一第二的两大品牌始终占据着重要位置.在总访问

《新周刊》揭晓2014年中国视频榜,优酷土豆成大赢家

中新网3月18日电 2015年3月15日,<新周刊>揭晓了2014年中国视频榜,优酷土豆集团可谓这一届的大赢家,一共包揽11项大奖. 其中,优酷土豆封获 "年度视频播出平台":被誉为2014 中国视频界首次跨平台全网盘点的"优酷全视频之夜"获得"年度视频品牌":网剧<报告老板!>获得"年度网剧"称号:土豆自制综艺<土豆头条新年联欢会>用互联网的方式做春晚,获得"年度综艺节目&quo

中国视频网站企业优酷在纽约证交所上市

中介交易 SEO诊断 淘宝客 云主机 技术大厅 纽约时间12月8日,中国视频网站企业优酷于纽约证交所上市,首发价12.8美元,首次发行募集资金约2.03亿美元. 优酷于2005年11月创建,2006至2007年开始增长迅速.据悉目前优酷在平台规模.营业收入.融资能力.现金流运转.内容管理与服务器带宽等业务主要指标居国内同类企业领先地位,占中国网络视频行业40%市场份额.优酷创始人兼首席执行官古永锵表示优酷是第一个在纽交所上市的互联网视频企业.成功上市标志着优酷发展的一个重要里程碑,是企业全体团队

传腾讯将投资入股优酷土豆:拟付出至少3亿美元及腾讯视频,获取优酷土豆约20%的股份

摘要: 据业内人士独家向透露,腾讯与优酷土豆已达成投资意向,腾讯将以投资形式入股优酷土豆, 腾讯将付出不低于 3 亿美元现金以获取优酷土豆 20% 左右的股权,并将把腾讯视频并入优酷 据业内人士独家向透露,腾讯与优酷土豆已达成投资意向,腾讯将以投资形式入股优酷土豆,腾讯将付出不低于 3 亿美元现金以获取优酷土豆 20% 左右的股权,并将把腾讯视频并入优酷土豆. 联系腾讯之前入股搜狗.京东所采取的策略,我们大致可以发现:腾讯对于依靠自家资源做不起来的业务,倾向于采取投资入股的方式进行战略布局.此前

优酷土豆合并案大起底:被低估的完美表演

本报记者 杨琳桦 北京报道 与最大的竞争对手合并.自己退居二线,清高孤僻的土豆网创始人王微的突然之举给人们留下了巨大的问号和想象空间. "说实话,我在飞机上看到这个新闻很受触动,干得非常漂亮,我认为看到了中国企业家的希望."3月13日夜,针对突然爆发的中国互联网最大股票交换并购案,一位不愿透露姓名的第三方外资投资公司高层在接受记者电话采访时吐露心声:此前的17时39分,一则评论将公众想象力推向巅峰."优酷土豆并购案是资本界的可耻记录,没必要一个个跳出来丑表功了."互

视频网站盈利遇瓶颈 优酷土豆股价大挫

摘要: 优酷抢在中国概念股遇冷前完成增发融资4亿美元.土豆在赴美上市窗口关闭时成功抢滩 纳斯达克这些曾经是视频行业在资本市场上创造的亮丽战绩,但现在战绩正在慢慢消逝. 美国时 优酷抢在中国概念股遇冷前完成增发融资4亿美元.土豆在赴美上市窗口关闭时成功抢滩纳斯达克--这些曾经是视频行业在资本市场上创造的"亮丽"战绩,但现在战绩正在慢慢消逝. 美国时间周三,在美联储声明公布后,投资者信心未能提振,美股大幅重挫,中国概念股随大市普遍下跌.其中,优酷大跌11.18%,刷新上市以来新低,5个月内

广电总局公布视频牌照名单 优酷土豆依然缺席

中介交易 SEO诊断 淘宝客 云主机 技术大厅 6月19日消息,广电总局昨天下午公布了互联网视频牌照名单,共有247家机构获得牌照,主要包括国内各大广播电视机构以及新闻媒体. 其中,腾讯.新浪.网易等几大门户以及酷溜网.六间房均获得视频牌照,不过,该名单中仍然没有优酷网.土豆网.56网. 优酷网内部人士回应称,"访问量靠前的几大商业视频网站审核时间较长,所以没有出现在该份名单中,再过几周应该可以拿到." 附互联网视听节目服务持证机构名单 序号 开办单位 省份 网站域名 1 中央人民广播

视频网站两虎相争优酷二季报广告收入大幅增长

长江商报消息 本报讯(记者 尹磊)近日,优酷发布了第二季度财报,据显示,当季净营收为1.978亿元,较2010年同期增长178%:净亏损为2810万元,比去年同期净亏损减少55%.据透露,这得益于二季度广告收入大幅增长.而土豆网二季报则显示,当季营收1.167亿元,比去年同期的6000万元增长94.5%:净亏损为7886.3万元,比去年同期的4520万元扩大74.5%,但比今年第一季度的3.36亿元下降76.5%. 优酷CFO刘德乐强调说,他们使用了加速摊销的方式,相比其他竞争对手采用的直线摊销

技术派:优酷土豆用Spark完善大数据分析

大数据,一个似乎已经被媒体传播的过于泛滥的词汇,的的确确又在逐渐影响和改变着我们的生活.也许有人认为大数据在中国仍然只是噱头,但在当前中国互联网领域,大数据以及大数据所催生出来的生产力正在潜移默化地推动业务发展,并为广大中国网民提供更加优秀的服务.优酷土豆作为国内最大的视频网站,和国内其他互联网巨头一样,率先看到大数据对公司业务的价值,早在2009年就开始使用Hadoop集群,随着这些年业务迅猛发展,优酷土豆又率先尝试了仍处于大数据前沿领域的Spark/Shark 内存计算框架,很好地解决了机器