《纸牌屋》的风靡,让全球的美剧迷都知道了Netflix,让全球的剧作人都认识到电视剧还可以这样做,让全球的大数据从业者看到了标杆,《纸牌屋》的成功,是大数据的胜利。
Netflix在美国有2700万订阅用户,在全世界则有3300万用户,这些用户的数据告诉Netflix:Fincher(社交网络、七宗罪的导演)是个靠谱的导演,他们都喜欢Spacey这个演员,英剧版的《纸牌屋》很受欢迎,当这些信息汇聚在一起,《纸牌屋》的收视率就是Netflix已经预见到的未来。
所以,本期CNET数读,就是要讲述中国的视频网站在大数据应用上的摸索。
大数据的境界:用分析指导原创
陈杰(陈杰国双科技新媒体业务部总监)
国双科技虽不是视频网站,但其服务对象却包括广电新媒体行业的视频网站,以帮助他们提升在在PC终端、移动终端、机顶盒、智能电视机上的用户体验。
国双科技新媒体业务部总监陈杰介绍,在互联网时代,电视台可以利用自身的新媒体平台,通过发送邀请码的方式,使得部分观众在PC、平板电脑、手机等终端收看新节目,并将用户收看视频的行为进行采集。此外,节目组在发放邀请码的时候,可以通过注册了解观众的性别、年龄、职业等信息,采集到的用户观看数据就能够反应出不同受众是怎样观看新节目的。
而用户的回馈也是多种多样的。
“比如说在看到视频某些片断的时候,观众开始不耐心了,开始往前拖着看了;看到什么片断的时候,他觉得这个段子特别有意思,他会往回再回看一两次;中间有一些提意见的模块,比如说认为这个场景的灯光或者这个主持人的服饰等等,他的反馈意见或评论,也可以在中间过程中提出来。”陈杰说。
国双此方案的设计,目的就是要把用户的行为做一些回溯,能够让节目组看到用户是怎么看的。节目组发现在某个用户流失的环节,就可以考虑是不是增加一个精彩环节的预告,怎样的预告能够使观众离开的人数减少,或者让观众尽量少拖拽,这些都为节目剪辑提供了数据,从而最终响应客户的需求。
事实上,已经有一些电视台客户向国双提出了这样的需求,打算尝试把新节目拿到互联网上来试播一下,看用户反馈再进行调整,他们希望把新媒体平台的价值最大化,新媒体的部门有数据能够反馈给电视台的节目制作部门。
当然,现在还有一些电视节目在播出之后,看到了互联网上用户观看的反馈,从而改进剪辑,这也是用户反馈的另一个体现。 详细
(姚键)优酷土豆集团CTO
今年,优酷指数进而演变成“中国网络视频指数”,加入了土豆网以及移动客户端的视频数据。
作为一款平台化的产品,“中国网络视频指数”在优酷土豆集团中的参考价值无处不在,从广告售卖,到版权购买,再到播放器产品的优化等等,处处都能够作为指导依据。
优酷土豆集团把其推出的数据报告给节目制作方、影视剧公司、第三方分析机构等了解视频节目的播放信息,并为观众人群的分析提供了依据;在广告销售方面,能够为广告主呈现出用户行为特征,提供广告投放价值的分析;在进行版权购买的时候,可以根据指数的走向来帮助决策;公司内部,哪怕是播放器产品的用户体验优化,都可以查看数据分析结果,查看按钮的摆放和使用频率等。
这些做法的价值是显而易见的,或者说还可以通过数据分析的结果来指导优酷土豆集团的自制内容。
比如说优酷有很多自制的内容,有很多的微电影、综艺节目等等,这些播放数据可以显示出哪些题材是用户喜欢的,用户看到哪里就看不下去了,在哪里是拖放观看的,一系列的用户行为可以清晰地告诉内容制作人员,应该怎么去剪辑视频,怎么去选择内容题材。
其实这个过程也是对视频质量进行分析的过程,在优酷土豆的搜索、推荐中按照视频质量进行排序,反过来也提高了推荐成功率。详细
大数据的起步:从数据积累开始
陈杰
陈杰国双科技新媒体业务部总监
陈杰强调,对用户喜好的把握精确与否,很关键的一点在于数据的积累,具体来说就是用户内容的关联。帮助客户把每个视频的标签做全、做细是一件很重要的工作。
比如,一个视频是喜剧片,那么,这个视频是哪个国家的喜剧片,演员是谁,导演是谁,等等这一系列的属性标签都要打上,标签越多,在做大数据挖掘的时候,挖掘出的信息量就越多。
这些标签的意义,就在于数据传递的时候,可以描述出这个视频更丰富的信息,标签越详细,挖出来的数据就越准确,对用户的喜好就把握的越准。
如果与风靡美国的电视剧《纸牌屋》相比,国双所做的“大数据挖掘”同样以最终的应用作为出发点,将大数据最终落脚到“小”数据上。“小数据”,并非是指数据量小,而是对海量数据进行了挖掘和分析,使结果一目了然。
陈杰解释,数据的分析、挖掘最后终究是要落在几个点上,也就是说能帮助完成什么样的工作,获得什么样的结果,这种更加具体、聚焦的工作;落地的这个“小”数据,正是数据发挥的价值所在。详细
姚键
姚键优酷土豆集团CTO
优酷新上线的首页页面上,通过一个叫做“协同过滤推荐”的技术,可对于不同的用户推荐他们喜欢的视频。
据悉,协同过滤推荐(Collaborative Filtering recommendation)在信息过滤和信息系统中正迅速成为一项很受欢迎的技术,其与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤还分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。
由此可见,看上去简单的相关推荐,其实在优酷的视频推荐中涉及上百个参数,每次要调整参数,都要手动调整十几甚至几十个参数,每天推荐视频的数据模型中要涉及的数据高达几十亿。
当然,数字证实,通过这种协同过滤推荐给用户的视频是靠谱的,因为在海量的视频中寻找自己喜欢的视频成本是很高的,推荐视频的打开率也令人满意。详细