大数据的价值是如何得以彰显的?

大数据价值的最大彰显——计算广告?

大数据有价值,这个观念似乎已得到很大程度的认可。

当然,也有质疑的,比如《21世纪商业评论》的发行人吴伯凡先生,他就曾说“大数据本质上是一种垃圾”。但话锋一转,他又说“如果你有好的方式,把这些垃圾,好象没有用的东西,你能够提炼出来,加工出来,那就是很有用的。”

这其实就是大数据的特征之一——“价值大,但密度低”的另一种翻版说法,也就是说吴先生并没有真的认为“大数据就是垃圾”。

那么我们怎样才能让大数据变废为宝,使其价值是得以彰显的呢?

在回答这个问题之一,我们先找几个没有什么争议的大数据公司,看看他们是怎么玩的。

大数据公司的第一道门槛,就是你得有大量的数据(此外的门槛,还包括具备大数据思维和能出活的数据工程师)。在互联网领域的公司,在这个方面有着得天独厚的优势。国外的Alphabet(谷歌母公司)和Facebook,国内的BAT(百度、阿里和腾讯)都可以算是比较彻底的大数据公司。我们来看看他们2015年的营收情况(如表1所示)。

 

表1 几个大数据公司的2015年的营收情况


公司


Alphabet


Facebook


百度


阿里


腾讯


总收入(亿美元)


817.62


179.28


102.23


122.93


158.41


广告营收(亿美元)


732.23


170.83


100.78


77.04


26.90+87.14


广告所占比例


89.55%


95.28%


98.58%


62.67%


16.98%+55.01%

 

从表1可以看出,广告营收分别在Alphabet和Facebook整个公司营收的绝大部分,其比例分别为89.55%和95.28%。我们再来看国内的广告巨头,2015年百度102.23亿美元的收入里,其中广告收入达到100.78亿,其比例达到惊人的98.58%。阿里巴巴(62.7%)和腾讯(55.01%)的比例亦不容小觑。腾讯之所以用加号(+)单独一列,是因为腾讯的部分广告收入和游戏收入搅和到一起了,“剪不断,理还乱”,如它的游戏联运(16.98%),既可以算得上游戏收入,但在本质上这部分也可归属于广告收入。

从上面所列的数字,可以给我们带来一个直观的感受,那就是互联网行业的大数据公司,其核心商业价值的彰显,竟然就是赤裸裸的广告。但是,这里的广告,并不是我们传统意义上的线下广告,而是通过一种付费内容的载体,是对流量和数据进行变现,与传统广告有非常大的差别。

计算广告的最大挑战是什么?

大数据专家刘鹏先生认为[1],不了解计算广告,就不可能深入地了解互联网,也不太容易真正理解大数据。那么,什么是计算广告呢?

计算广告(Computational Advertising)是一门正在兴起的交叉学科,致力于采用数据挖掘(如大规模搜索、文本分析和信息获取)、机器学习等人工智能手段,结合用户反馈,行为分析,甚至心理学等,来提高广告相关性,交互性,实现广告主、广告网络(如AdSense)和用户的自动化匹配。

我们知道,大数据的核心价值就是预测。

作为大数据和核心应用之一,计算广告,更是如此。它要完成的核心任务,就是预测哪些用户对哪些广告感兴趣,然后据此推送相应的广告。

说得更加学术点,计算广告就是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。

这里的语境,可以是用户正在访问的网页,也可以是用户在搜索引擎中输入的关键词,还可以是用户正在看的书、听的音乐等。潜在广告池的广告数量,可能达到几十亿,而用户的数量也同处于这个级别。

故此,这个“最佳匹配”,面临的最大挑战,就是在复杂约束条件下的大规模优化和搜索问题。

简单来说,在数以千万(甚至上亿)级别的网络用户反馈形成的、快速变化的数据空间,计算广告并没有确定的“ground truth”(地面实况,即用于有监督训练的训练集的分类精度),同时它也无法通过均匀地对总体空间进行采样,构建鲁棒性很强的训练集。更为要命的是,其建模的对象,是人的行为,而人的行为又极大程度地受到系统输出的影响。

人类学家兼数学家托马斯·克伦普在其著作《数字人类学》强调[2],数据的背后,其实就是人本身。确切来说,数据,在本质上,是人类观察世界的表征形式。研究数据,在某种程度上,就是在研究人。计算广告领域的研究,尤其如此。

前文我们提到,大数据的核心价值就是预测。而预测通常分为三个层次(如图1所示),最内层是对人性的预测,这个在很大程度上其实不用预测,人性使然而已。比如,人饿了会怎样?他(她)会找事物吃,因为不找东西吃会饿死。手碰到火后,人又会怎样?他(她)会很快拿开,不然手就会烧疼。

图1  预测的三个层次

预测的中间层就是趋势,这是大数据的拿手好戏。法国著名哲学家奥古斯特·孔德(1798年~1857年)曾认为,人作为个体,是无序的,具有“自由意志”,但样本增加至全社会,大数定律就会发挥作用,人们就可以从中发现稳定的规律。

200多年后的今天,全球复杂网络研究权威艾伯特·拉斯洛·巴拉巴西(Albert-László Barabási),用大数据分析支撑了孔德的观点,他在其著作《爆发》表示[3]:“人类行为93%是可以预测。”

预测的最外层就是对习惯的预测,某种程度上,也就是对个人“自由意志”的预测。这个是最难的。比如说,前天我吃了汉堡,昨天我也吃了汉堡,今天我还吃了汉堡,你能预测我明天吃什么吗?的确有可能,我明天还吃汉堡,但连续三天都吃汉堡之后,我也完全有可能由于吃腻了,换个口味啊。但是基于数据的归纳法(这是人类绝大多数知识存在的根基),很容易得出预测的结论:我明天还吃汉堡。这种预测,哪里是预测,明明就是对个人自由意志的“猜测”,准不准,天知道!

而计算广告的受众对象,就是对个人行为习惯(自由意志)的预测,所以,我们可以给出一个推论:计算广告的预测效果,肯定不会太好!人心叵测嘛!

既然这样,那为什么如前文所列的大数据公司(如Alphabet、Facebook及国内的BAT)的广告效益,还这么好呢?其实他们取胜的秘密,也很简单,那就是计算广告的单位成本极低,但规模极大!

虽然我们说了,计算广告的预测效果注定不会太高,但还是比毫无根据的“瞎猜”要好很多。还拿前面的例子说事。如果我们有了“前天我吃了汉堡,昨天我也吃了汉堡,今天我还吃了汉堡”的数据,计算广告的确不能很准确地预测我明天吃什么,但总比一个人完全不知道我过往的饮食习惯,在成百上千种食物中,瞎猜一种,其预测准确率还是要靠谱一些。

胡适老先生曾经说过一句名言,“怕什么真理无穷,进一寸有一寸的欢喜。”套用到计算广告上,我们也可以说一句,“怕什么预测不准,提高一个百分点,有一个百分点的收益。”

的确,哪怕把广告的转化率提高一个百分点,架不住计算广告推送的规模之大,其收益也是相当可观的。这就好比,一块钱不算多,但如果每个中国人都给我一块钱,那我就是亿万富翁了,原因很显然,中国人口基数太大。

因此,计算广告还是很有搞头的。

计算广告是如何变现的?

我们知道,当前互联网产品的大趋势,就是免费!

可是互联网企业也要活下去,他们也需要有变现的的资产。那些可变现的资产又是什么呢?

总结一下,互联网行业可变现的核心资产,主要来自两个方面。第一个方面,也就是最简单粗暴的方式——利用流量(traffic)变现。

什么是流量呢?就是有人访问你的网站,或者有人在用你的APP,在这些产品中,除了放用户感兴趣的内容以外,还可以放一些付费内容(Sponsored content),也就是广告。在正常内容里夹裹付费内容,就是流量变现的基础。这个容易理解,有点类似于很多人都爱看电视剧,那么电视台就可以把广告,插播在电视剧里。你想看电视,就得看广告!

但电视台播放广告的弊端也很明显,那就是“千人一面”——所有人看到的广告都是一样的,这样的广告转化率势必不会太高。如何提高广告转化率呢?

除了流量能够变现之外,互联网公司还有一项非常更重要的法宝,那就是数据!

简单地说,通过大数据(特别是用户的行为大数据),互联网公司可以做到较为精准的用户画像(personas)[4],据此判断用户偏好,然后再根据这些偏好,提高付费内容的转化率,这是数据变现的基本原理。

那么这些用户大数据又是如何得来的呢?自然都是来自各种免费的互联网产品,当用户在用这些产品过程中,就会留下蛛丝马迹,互联网公司就会收集这些信息,据此猜测这个用户的属性,比如购物偏好,然后再根据这些购物偏好,来投送相关的付费内容,这比没有任何的指导来投放付费内容,它的效果肯定要好一些。

刘鹏先生提供了一个精彩的例子,如图2所示,可以辅助读者理解一下数据变现的原理。这个图的左半部分说的是流量变现。比如说,假设我们有个网站,每天有10万的访问量,那么就可以在上面放一个广告位,这个广告位可以有个报价,比如说5000块钱,这就是流量变现的价值。

图2  数据价值的体现

但是这种流量变现的方式,并没有最大化发挥数字广告的优势。因为剃须刀广告的有效受众,基本上都是男性,因此,这个流量里边,有一半的女性受众是被浪费了,那么,该如何合理利用另一半流量呢?

再看图2所示的右半部分,实际上,在计算广告体系里,我们完全可以做到,仅仅把男性的一半流量留给这个剃须刀广告客户,对于这个客户而言,它的有效受众的触达,其实并没有损失,但由于他只用了一半流量,因此可以给他打个折, 3000块钱就可以了。

如此一来,对流量变现的互联网公司而言,它还剩下一半女性的流量,他可以用3000的价格卖给另外一家做化妆品的广告主。对互联网公司来说,它挣到了更多的钱(6000块)。对于广告主而言,他也是满意的,因为他只用花3000块钱的成本,就获得了原来他要花5000块钱成本,才能触达的有效受众。所以,这是个双赢的生意!

实际上,我们知道,天下没有免费的午餐!在我们的工作生活中,基本上,存在一个利益守恒原则。也就是说,如果你在某个方面获得了利益,通常是会在其它方面,以某种形式(或显式的或隐性的)利益牺牲为代价,换回来的。

双赢(或多赢)是不符合利益守恒原则的。既然是双赢,一定需要新的资源加入到这个利益分配过程当中,那么这个资源是什么呢?

这就是数据的价值!也就是我们一直说的数据变现的秘密。

计算广告的收益——我们付出了什么代价?

互联网公司之所以能得到这1000块钱的溢价,是因为他们有了每一个用户的性别数据。如果再接着问,他们为何能有这些数据,还不是我们用户“免费”使用了人家的产品嘛?

我们在享受互联网公司提供的免费“午餐”时,付出的第一个代价,就是不经意间泄露了我们的个人隐私数据。你看看,天下哪有免费的午餐?免费的背后,其实是都是要付出代价的!

天下没有免费的午餐,不光是个普世化的认知,在计算机科学领域,甚至还给出“没有免费的午餐定理(No Free Lunch,简称NFL)”的理论证明。该定理是由美国圣菲研究所(Santa Fe Institute) 的教授Wolpert和Macready等在1997年提出[5],其结论是:由于对所有可能函数的相互补偿,最优化算法的性能是等价的。该定理通俗来说就是,如果某个算法在某个场景下,获得了最优性能,但它在其它场景下,一定付出了性能代价,不可能在什么场景下,你都最牛。就看当前场景下,算法优化后的性能改善,和付出的代价相比,值还是不值!

苏萌、柏林森和周涛等人曾合著了一本书,叫《个性化:商业的未来》[6]。我们不能说这本书的观点是错的,但如果这本书的观点是正确的,根据NFL原理,我们同样也可以写另外一本对应的书籍《隐私获取:大数据公司盈利不得不说的秘密》。

因为所有的个性化服务,都必须以获取用户个性化的信息(即隐私数据)作为前提,没有个性化的数据,自然就不会有“贴心”的个性化服务。

计算广告盈利水平的提升,肯定离不开用户隐私数据的获取,而用户的大数据隐私保护,肯定也是计算广告绕不开的研究话题。

参考文献

[1] 刘鹏, 王超 著.计算广告:互联网商业变现的市场与技术[M], 人民邮电出版社,2015

[2] 托马斯·克伦普(著),郑元者(译). 数字人类学[M], 中央编译出版社, 2007

[3] 艾伯特•拉斯洛•巴拉巴西.爆发[M]. 中国人民大学出版社.2012-6

[4] Wolpert D H, Macready W G. No free lunch theorems for optimization[J].
IEEE transactions on evolutionary computation, 1997, 1(1): 67-82.

[5]Introduction to Personas. https://www.usability.gov/how-to-and-tools/methods/personas.html

[6] 苏萌,柏林森,周涛 著. 个性化:商业的未来[M], 机械工业出版社, 2012

作者简介:张玉宏,著有《品味大数据》一书。

时间: 2024-12-11 00:59:52

大数据的价值是如何得以彰显的?的相关文章

大数据的价值实现之旅

大数据开启了人类数据管理史的一段崭新旅程.人类想要测量.记录和分析世界的渴望是驱动大数据技术不断向前的动力.但如同此前的电子商务.云计算等创新构想一样,大数据也不得不怀抱变革理想在现实中披荆斩棘. 我们该如何定义我们所身处的信息技术时代?是云计算.社交.移动,还是大数据?相信每位从业者和客户都会有自己的认知与解读."一千个人眼中就有一千个哈姆雷特",很多时候是一个放之四海皆准的道理,更何况我们正在经历一段创新趋势叠加.创新领域融合的独特时期.而对于那些想要体会技术创新真正内涵的人士,有

创业必称“大数据”?是时候重新审视大数据的价值了

"大数据"这个概念大约是从2011年开始火起来的,如果从Apache Hadoop项目的正式启动算起,海量数据的分布式存储.管理和计算技术已有10年的历史.这10年里,创业圈逐渐流行起一种通病,但凡创业必称"大数据",似乎每个创业项目都会多少与之关联.大数据到底是什么?它是一项技术.一个产业还是一种思维方式?当越来越多的人将兴趣转移到AI.VR上时,也许是时候重新审视大数据的价值了. 在IT领域,一项技术的价值得以验证并实现往往需要走完四个阶段:技术原创.开源.产业

如何正确认识大数据的价值和效益?

大数据已成为媒体与大众关注的新技术,大数据的应用也预示着信息时代将进入一个新阶段,但人们对大数据的认识有一个不断加深的过程.首先从"信息时代新阶段".数据文化和认识论的高度阐述了对大数据的理解:接着通过对驱动效益和大成智慧的解释,探讨了如何正确认识大数据的价值和效益,并从复杂性的角度分析了大数据研究和应用面临的挑战:最后对发展大数据应避免的误区提出几点看法. 1 大数据兴起预示"信息时代"进入新阶段 1.1 看待大数据要有历史性的眼光 信息时代是相对于农业和工业时代

拥抱Hadoop领跑大数据 实现价值回报

本文讲的是拥抱Hadoop领跑大数据 实现价值回报,当大数据风暴来临的时候,你是否已经做好准备?2012年对于企业来讲最为企业CIO所关心的话题之一必然要属于大数据.我们看到无论是个人还是企业,随着互联网.3G技术的普及以及企业自身数据的积累,大量的数据被产生,而这些大数据最终在存储.安全以及价值转换将成为企业关注的焦点. 相关数据调查显示,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB.根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.

寻找大数据真正价值:决策支持系统

文章讲的是寻找大数据真正价值:决策支持系统,2012年秋天,全球广告巨头WPP集团首席执行官苏铭天爵士约访谷歌首席执行官拉里•佩奇时,佩奇派出无人驾驶汽车去接他.这是一辆集大量高科技设备.自动驾驶的雷克萨斯SUV汽车,车上配有雷达.传感器和每秒可测量超过150万次的激光扫描仪.它自助行进了20分钟,驶过280号州际公里和繁忙的85号州公路.汽车通过自动驾驶仪进行自动巡航,自行校正路线,在前方出现车辆和行人时减速,然后又加速驶出临近车辆的盲区,最后来到距谷歌公司约32公里外的瑰丽酒店.(根据<财富

PureData专家力量成就大数据时代价值

本文讲的是PureData专家力量成就大数据时代价值,在人类发展的历史上经历过几次大的变革阶段,这是今天人们有目共睹的.第一个阶段,人类语言的产生;第二个阶段,铁器时代的到来;第三个阶段,印刷术让人类文明能够得到承载;第四阶段,19世纪利用电磁波技术传播信息的时代,加速了信息传播的速度和广度;第五个阶段,二十世纪开始的新变化,数据的变化. 有一个触目惊心的数字对比能够充分展现人类进步的速度."近3500年人类文明发展所产生的数据放到今天,大约等于我们这个世界两天所产生的数据." IBM

大数据进入价值变现的2.0时代

文章讲的是大数据进入价值变现的2.0时代,移动互联网和传感器出现推动了大数据时代的出现,大量非结构化数据的出现令数据处理面临了难题,在大数据时代初期,有关大数据应用主要集中在收集数据,存储数据.处理数据等方面,解决的是主要是数据效率问题.当数据效率问题被解决之后,大数据价值变现问题将摆到面前,也就是说大数据将进入2.0时代(价值变现时代). 一大数据1.0时代的特征 大数据1.0时代的主要特征是发现大数据,存储和处理大数据.大数据4个V中的前3个V(大量的数据.多变的数据.高速的数据)都被有效的

行业:大数据基础设施逐渐完善,大数据应用价值爆发

大数据应用是指将处理好的数据产品应用到行业中去,为企业提供决策支持,从而提高运营效率,是发展大数据产业的终极目的也是大数据变现的最后阶段,随着大数据基础设施的逐渐完善,限制大数据应用的诸多难题开始被一一化解,从数据源到大数据应用的变现通道已经快速形成.我们认为,作为大数据变现最终阶段的大数据应用层必将开始实现加速发展,并将引导大数据产业链价值更多的向应用层流动, 同时越来越多新的大数据应用方式将被挖掘出来从而引导大数据应用向全面产业化方向发展. 大数据应用模式创新加速,大数据应用多行业实现落地

2014中韩大数据论坛发现大数据的价值

ZDNET至顶网CIO与应用频道 06月06日 北京消息:2014年5月30日上午,由中国软件行业协会主办,北京软件和信息服务交易所(简称"软交所").中关村大数据产业联盟.韩国大数据学会.韩国经营信息学会联合承办的"2014第十八届中国国际软件博览会中韩大数据论坛"在北京展览馆正式召开. 2014中韩大数据论坛"发现大数据的价值"主论坛现场嘉宾 中国软件行业协会秘书长谢渡婴,韩国大数据学会会长吴在仁,软交所副总裁刘东华.中关村大数据产业联盟秘书