大数据钱景可观 因噎废食大可不必

在世界杯预测时准确率超高的百度大数据预测在稳步推进时遇到了一个小障碍,尚处于内测的票房预测对《黄金时代》的预测与实际结果出现了偏差,被媒体长篇报道引发业内高度关注,笔者一直在观察大数据预测业务,对于百度预测《黄金时代》失利一事有自己的一些观点,不吐不快。

一、看待大数据预测失准要冷静客观

近年来,“大数据”一词频繁出现在各类媒体上,与大数据相关的各种产业、产品也在蓬勃发展。今年2月,中关村管委会在《加快培育大数据产业集群推动产业转型升级的意见》发布会上表示,到2016年,中关村大数据带动的产业规模将超过1万亿元,这还仅仅是中关村大数据产业的数字而已,放眼全球,大数据未来的“钱景”非常可观。尽管大数据概念被热炒,但与大数据相关的各种产品其实尚处在初期探索阶段,比如利用大数据做预测,尽管百度预测此前在世界杯预测、黄金周旅游预测等产品上表现出比较高的准确率,但对“预测”本身来说,出现失准的现象其实很正常。

具体到《黄金时代》票房预测这件事上,我们先来看看百度的官方解释。百度对媒体的回应并没有将问题归结到“工程师犯错”,而是直接指出核心原因:因为我国电影市场上文艺片的历史票房数据很少,所以在针对《黄金时代》进行预测时采用了通用的模型而没有针对文艺片单独建模,导致最终结果出现偏差。

拥有萧红、民国、文艺这些标签,《黄金时代》算得上相对小众的电影,面向的观众并非主流人群。关于这类电影的任何数据都是少之又少,没有对应类型片的预测模型可供参考。百度在预测《黄金时代》时采取了通用电影的模型,导致出现了较大偏差,未来如果要预测准确,最好的解决方式肯定是针对不同类型的电影单独建模,而据我了解,尚处在内测阶段的票房预测已经在进行这方面的改进。

浏览百度预测平台(trends.baidu.com),百度票房预测的图标是灰色的,并没有正式上线,相反,经济指数、疾病、景点和赛事预测倒已全面上线投入使用。百度票房预测模型还需进一步完善,更多参数需要加入模型,比如影片属性、片长、排片量、场均票价等全方位维度都纳入考虑。

不过,从另一个角度来看,我认为,就算是百度票房预测正式上线之后出现“预测失误”,也非常正常,没有谁真正拥有水晶球,大数据预测无法确定某件事情必然会发生,它更多是给出一个概率,人类只有不断地去接近这一个概率。预测的前提就是要承认不确定性的存在。在不同领域不确定性大有不同。票房、股市恰恰就是更容易受人为影响的存在大力不确定性的领域,预测的难度会大过天气、旅游、交通、物价等。

因为一部《黄金时代》预测失利便质疑大数据预测本身,或者票房预测本身,是不合理的。百度此前在世界杯期间、在黄金周期间相对漂亮的预测结果,已经证明了大数据预测的价值,只不过面对票预测房这一全新的领域,需要更耐心地优化而已。那么,票房预测在中国真的没效吗?

二、预测的精髓在于沉淀和纠偏

《为什么大数据在预测《黄金时代》票房时不灵了?》一文的核心观点列举如下:1、中国票房数据沉淀太少;2、一些人为制造的数据对票房预测造成干扰;3、预测模型处于初级阶段,变量遗漏和样本偏差;4、影院经理预测靠谱,票房预测没有意义,电影预测谈大数据为之过早。

对于这些观点,只有第3点我表示认同,这是客观事实,百度也承认处于内测阶段的票房预测模型存在不足尚需完善。但如果深思则会发现,世界上并无完美的预测模型,每个领域都是,下一秒要发生的事情会受到诸多变量影响,有些变量是可提前纳入考虑的,有些变量就算考虑到却又是很难监控,变量遗漏和样本偏差是永远存在的预测问题,预测者只有不断地更新变量、纠偏样本、升级模型才可以不断地保持预测足够接近真实。

在《大数据预测将会改变哪些行业?》一文中,笔者总结大数据预测的逻辑基础是,每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,就可以进行预测。对于预测来说至关重要的两点是:从过往数据和经验中得到的规律,这映射到预测模型;可以实时监控的“变化”,映射到变量或者说实时数据。大数据预测与传统预测的不同就在于:更具时效性、新型数据源、动态性预测以及规律性依赖。

对票房预测持消极态度的首先将问题归结为数据:电影数据沉淀太少、各家网络数据不通以及脏数据问题。

1、沉淀太少是杞人忧天。

中国票房数据沉淀太少可能是客观事实。但预测需要海量历史数据的原因在于从中发现规律。但倘若只有100年的票房数据,却并没有与影响这些票房数据的“变量”数据,对于挖掘规律其实并无帮助。

一个例子是百度在做世界杯预测时便与第三方数据公司合作得到大量历史数据进行挖掘,将球队、队员、场地等静态因素考虑在内同时引入舆情、欧赔指数等动态变量,最终实现接近准确的预测。

对于票房预测而言,就算得到中国80、90年代的票房数据,而不是“预测相关数据”,对于票房规律的获取并无什么帮助,那时候并无互联网,电影市场早已面目全非。票房预测究竟需要什么数据?没有人可以告诉我们答案。等到10年之后数据积累完全再来谈大数据预测,并不现实。因为今天不做,人们就不知道该收集、记录什么数据。况且谁又能指出10年与2年在时间上的差距会对数据积累造成什么本质不同呢?

大数据预测的数据源优势正是在于它可以更全面及时地记录数据,并且收集到过往完全无法收集的数据比如用户的需求、舆情、情绪变化,或者说出行规律、电影票价、影院排期数据。因此与其去担忧“传统数据沉淀不足”还不如思考票房预测究竟需要哪些数据,究竟如何才能提升规律?

2、数据不通和脏数据是永恒问题。

网络数据不通是整个互联网都要面临的数据鸿沟问题,没有哪一家拥有全网的数据,聚合全网数据进行预测几乎是不可能完成的任务,况且这根本没任何必要。如果说社交网络数据对预测很重要,那么中国只有腾讯才可能做好预测——实际并没有做。阿里淘宝指数已成为电商销量风向标、百度搜索指数对于各行各业同样具有重要的参考意义,因为它表征兴趣。每家掌握数据的性质不同,但确实可通过合作去得到更多维度的数据,最终提升预测可靠性,但要各家直接打通数据壁垒是不现实的。

同理,“脏数据”以及”噪音“是整个互联网永远存在的现象,就算是传统的采样调研难免也会遇到噪声样本进而被干扰。应对这个问题只有尽量过滤噪音数据,同时考虑到噪音对模型进行不断地纠正,并且增大预测结果的误差范围。还有一个假设是,如果有脏数据对结果起到积极作用(比如让票房成绩更好),同样会有脏数据对结果起到消极影响。

百度搜索结果不排除有人为操作的数据,水军评论、豆瓣评分大家心知肚明,但文中所提及的百度商业化结果却根本算不上脏数据,因为百度要排除商业广告的影响轻而易举,况且这些数据对预测是十分有价值的,Google票房预测模型一部分便是基于广告点击数据。

3、影院经理不是预测而是影响票房。

影院经理确实可预测对应影院某部电影的票房结果。如果他们掌握拍期权甚至还可以直接影响、决定对应电影的局部票房。所有影院经理最终会对整体票房造成莫大的影响。这并不是一个因果关系,而是环环相扣:影院经理在预测票房的同时也影响着票房。

我们可以将影院经理对应到股市中的股民,股民对自己所关注的股票价格有所预期,基于这个预期进行减仓或增持等操作。所有股民的博弈最终决定了股价的波动。但这并不意味着股民是最好的股票预测专家。在旅游、交通、房价等领域均有类似的状况,参与者基于个体的预测,或者第三方预测结果去做出行动,进而影响结果。

这里想说明的是,将参与者与预测者放在一起本身就不合适,参与者是十分重要的动态变量。《黄金时代》出现如此惨淡的票房很大程度便是票房经理不断降低预期进而减少排片所致。不过,百度未来与影院或者票房经理合作倒确实可以提升预测准确率,一方面在线下升级模型,另一方面将票房经理的排期计划纳入监控范围,把百度数据+工程师的大数据预测升级为众包式的票房预测,倒有可能。

最后我想说的是,因为一部电影的预测失利否定大数据票房预测确实有待商榷,天气预报不断地沉淀不断地升级才能做到今天的准确率以及精细化,但仍有不准的时候,在影响我生活时我也曾愤怒地认为天气预报不考虑,但大家都知道事实并非如此。票房预测刚刚开始,或许应该得到更多包容。从长远来看,通过不断的优化,如果票房预测产品最终能够达到一定的准确度,那么对于整个电影产业将会提供非常重要的参考价值,比如对投资方、拍摄方、推广方提供更准确的数据参考,从而引导他们在宣传推广、剧情设置甚至是甄选演员等方面做出更加准确、有利的判断。

作者微博@互联网阿超,微信SuperSofter

时间: 2024-08-03 14:53:09

大数据钱景可观 因噎废食大可不必的相关文章

大数据钱景与挑战同样巨大

最近这几年,大数据的概念已经传扬得风生水起,炙手可热,其发展也一直红红火火,井喷般的势头甚至要盖过云计算了. 大数据钱景巨大 倘若把2012年比作大数据落地扎根之年,那么2013年其将迎来其萌芽成长,乃至遍地开花结果的一年.多家IT调查机构预测称,大数据市场每年至少40%以上的速度高增,2012年大数据市场规模约为50亿美元,到今年将翻一番. 大数据技术商机巨大,钱景十分光明.据不完全统计的数据显示,大数据产业每年将为美国医疗系统带来3000亿美元的增益;为欧洲公共管理部门带来2500亿欧元的净

挖掘最具价值客户群 大数据“钱景”无限

在越来越多的各种http://www.aliyun.com/zixun/aggregation/10527.html">新闻发布会上,一个名词被反复提及--"大数据":在各种科技企业的收购和并购案中,收购的原因也经常指向--"大数据".大数据是如此火热,甚至在前不久闭幕的全国"两会"上,更有代表提案将"发展大数据"上升到国家战略. 可能普通的市民感觉不到大数据对自己有什么影响,实际上我们的工作.生活已经与大数据

微软发布大数据愿景 推动数据分析平民化

当其他厂商还更多地将注意力放在"如何利用大数据进行产业转型和企业创新"时,微软已经开始展示如何利用正确的技术和工具,让每位普通大众都能从大数据中直观获取洞察. 10月18日,微软全球高级副总裁.大中华区董事长兼首席执行官贺乐斌在"大数据媒体日"上对记者表示,"与其他公司处理大数据的方式不同,微软主张从发现数据.分析数据和对数据进行可视化的处理这三种方式来思考大数据的使用.微软大数据愿景是,希望基于标准化的产品,使所有人都能够在任何时间任何地点利用数据,并更

生物制药钱景可观,风投争搭新一轮“创富快车”

未来生物制药的发展方向将可能扩展至农业.能源等多个方面,难怪风投会情有独钟. 资料图片 "以前中国的生物医药专业大学生毕业找不到工作,但是现在生物医药聚焦了投资者的眼光,这里有继互联网后的新一轮创富机会."26日,凯鹏华盈创投基金创始合伙人钟晓林向本报记者称.就在一周前,凯鹏华盈向中国最大的生物医药外包企业之一金思特科技(南京)有限公司签订1500万美元风险投资项目.这也是凯鹏华盈今年在中国医药领域进行的第一笔投资. 在近日国家<促进生物产业加快发展的若干政策>出台后,&q

酒类电商遭VC/PE围猎:市场“钱景”可观仍存挑战

2013年4月,品尚红酒网宣布获得B+轮融资,投资方为华欧创投基金.回顾国内目前几家初具规模的酒类电商企业,大部分都获得风投注资. 笔者从清科数据库看到,酒仙网.酒美网.也买酒.品尚红酒网均获得多轮风投注资.而据知情人士向投资界透露,中酒网也正在计划融资,融资金额预计在5000万元左右. 在垂直电商行业里,酒类电商于2011年起步后,已初具规模.目前,酒类电商中多以经营红酒.进口酒等品牌酒类为主,部分主营白酒品类电商亦开始上线红酒频道,比如主营白酒品类的酒仙网也开始上线红酒频道. 受到白酒涉塑.

生物制药行业钱景可观风投争搭新创富快车

未来生物制药的发展方向将可能扩展至农业.能源等多个方面,难怪风投会情有独钟. "以前中国的生物医药专业大学生毕业找不到工作,但是现在生物医药聚焦了投资者的眼光,这里有继互联网后的新一轮创富机会."26日,凯鹏华盈创投基金创始合伙人钟晓林向本报记者称.就在一周前,凯鹏华盈向中国最大的生物医药外包企业之一金思特科技(南京)有限公司签订1500万美元风险投资项目.这也是凯鹏华盈今年在中国医药领域进行的第一笔投资. 在近日国家<促进生物产业加快发展的若干政策>出台后,"将

分析至上 大数据项目部署的五大愿景

文章讲的是分析至上 大数据项目部署的五大愿景,如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能.笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析.快速部署.高级分析.实时分析和网络分析选件. 好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一.大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据.Apache Hadoop软件的发行商都在规划.测试,甚至已经发布了

阿里也要做电影,靠大数据来知道宣传

大数据做电影好看吗?好赚吗? 手握阿里巴巴集团的"大数据"和"电商平台"两张王牌,阿里巴巴影业集团(简称"阿里影业")野心不小.阿里影业CEO张强表示,要改变传统电影制作方式和扩充传统电影行业模式潜在的商业空间.艺恩咨询研究经理魏欢认为,大数据运用在营销.商业植入.周边产品开发等方面都有不错的价值.数据显示,目前中国的电影产业营收80%依赖于院线票房部分,而国外的影视剧作品票房占比在收入的30%,大数据影业衍生品.定制性产品是亟待开发的蓝海. 大

IBM陈剑:金融行业大数据解决方案实践

本文讲的是IBM陈剑:金融行业大数据解决方案实践,当前,行业对于"大数据"的关注疾速攀升,这并不亚于数据本身的增长程度.您是否想过,我们看到的"谈大数据色变"或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的"金矿",为自己的业务飙升迈出制胜一步. 作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发