数据变现的历史与未来

其中,360商业产品首席架构师刘鹏就分享了他对于“数据变现与交易”话题的观点看法。在这场题为《数据变现的历史与未来》的演讲中,刘鹏结合自己在数据领域的实践经验,强调了“计算广告(Computational Advertising)”的概念。

大数据文摘编者根据现场录音及速记整理出了一些干货,以下都是刘鹏分享的现场实录,希望能给数据行业从业人员带来一些启示。

传统数据(Data)和大数据(Bigdata)有何区别?

“通过采样能解决的问题不是Bigdata问题”

大数据说白了是咨询公司提出来的,工业界怎么看大数据?其中最关键的一点是——如果一个问题能够通过采样数据分析解决,那么就不是Bigdata问题。

我们从工业界来看,大数据和传统数据最主要的区别,首先是交易数据和行为数据的区别。

交易数据指的是传统的企业在业务运转过程中不得不记的数据,像进销存的数据、银行的存取款利息、电信的话费清单,这些是必须要记录的数据,不计的话业务就无法开展。这种数据的特点是量并不大,很难谈到Bigdata,但是他的一致性和实时性要求很高,一点都不能错。

而行为数据,指的是在业务的运行过程中,可记录也可不记录的数据。比如说对互联网企业来说,网站的日志为什么要记下来?因为数字化的服务,服务器很自然就把日志记下来,但是一开始也不知道有什么用。后来大家在免费数据变现的过程中,才逐步考虑怎么把这些数据给用起来,它具有后延性。对于电信来说,它也有行为数据,比如说每个人上网记录、通话内容,这些不是业务必须要记录的,但是蕴含巨大的价值。

行为数据规模是巨大的,以广告为例,创业公司做广告的时候,每天的展示量可以到一百亿,远远大于日常的交易量。所以它的处理机制完全不一样。

第二点区别在于,传统数据是采样的分析,而大数据是全量的分析。

如果我们一个分析必须要用到全量的分析,它才是大数据问题。像广告就是特别典型的全量数据分析,因为我要对每一个人都做targeting,中国有10亿人,就要分给10亿人,不可能只分给100万人,否则对其他的所有人就都无法做精准投放。这种无法采样的配置问题,就是大数据所关注的关键问题。

还有智能订单和进货的问题,商家要判断一个货物的销量,他就需要这个货物的全体销量,而不可能仅仅采样一部分进行分析,否则得到的结果没有意义,无法反映单品的库存和配送管理问题。每一件单品都要通过历史的数据分析,这是大数据的本质。

第三点区别在于数据应用场景。传统应用场景是洞察,最典型的是财务报表,我们把企业的运营财务数据总结成三张表,给公司的决策层看,我们希望通过把运营数据、日志数据连成几张表,放到所谓data science的运营决策链上,让管理层更有效地调整运营结构。但是这件事我个人觉得,在实际当中很困难,为什么很困难?能看到这三张财务报表的人非常有限,再有能从里面提炼出往什么方向走的人更少。不是每一个人拿到报表都知道怎么用,我看到的实际情况,如果我们把大数据使用的场景收缩在洞察数据这块,基本上没有太成功的例子。因为从报表里看出方向,确实是需要非常专业的技能。

我们更希望看到的是第二种应用,个性化的应用。比如说广告,用数据驱动用户的画像和标签,然后标签直接驱动广告决策,这样的过程是自动化的。大多数的情况下,自动化就是个性化,对每个人进行相应的决策分析。当然在有些情况下也不一定针对人,比如说对货物的管理。

我个人觉得,大数据应用,主要就是看你有没有在利用大规模的行为数据,能不能找到自动化的规律,能不能建立全量的数据分析方法。

数据变现模式是什么?

“广告市场是数据变现的重要起点“

从历史来看,数据变现最为成功的例子,在广告领域。

它的模式非常简单,左边是一个广告位,投放的是吉列剃须刀的广告,假设厂商投放了1万的广告费,但一般情况下只有男性用户会看,也就是说实际只有投放量一半的人可以看到。但是如果我有数据,我知道每个人的性别,我就可以把男性用户单独分出来,给他们投放吉列的广告,相应地只收6000,这样广告商的投入产出比就提高了。

而剩下的一半女性流量,我可以再以6000的价格打包卖给一家化妆品的广告。这样的结果是什么?同样流量,我挣到的钱从1万变成了1.2万,1万是流量价值,而多出来2000块钱,本质上就是数据变现的价值。我仅仅是知道每个人的性别,就可以多挣2000块钱,而如果知道得更精细,还可以挣更多的钱。

所以我认为,广告市场是非常重要的数据变现的起点。也可以说是,大数据迄今为止唯一一个形成规模化的工业应用。当然从互联网的意义来说就更大了,互联网行业到目前为止70%到80%的收入来自于广告,都是一个数据后向变现的概念。

所以说,有的人质疑大数据到底能不能挣钱?其实这是可笑的,因为这个变现市场已经很巨大了。去年在线广告市场是1600亿,前年是1100亿,今年这个数据超过2000亿无疑,并将超过所有除互联网以外所有的广告。数据变现在互联网世界是确定存在,并且正在规模化地发展。

计算广告的四次数据使用革命

计算广告核心的挑战,有一个网站,有一个网页,我知道用户的身份,我要找到合适的广告投放,目的是优化我的收入和成本差,也就是优化我的利润,这个收入从数据叫做千次展示的期望收益(eCPM)。就是这样的公式,我们所有的任务都是在最大化收入和成本的差。


实际上在计算广告或者叫数据变现发展的历史上,有过四次数据使用的变革:

第一次是把用户性别数据等基本数据开始用在做受众对象分析上。也就是刚才举过的例子,目的是为了把数据变现加入到广告里。

第二次革命是竞价模式,契机是广告主需要更精细的服务,除了性别还要知道他有没孩子,孩子多大了等等。原理上知道的数据越多,广告就可以卖更高的价格。但是在实践上,没法采用合约制的方法,比如和广告主签订合同,约定在未来一周内有多少的量。

所以我们的广告走向竞价模式,竞价本质是需求方定价,供给方采用撮合定价的方式,由价高者得的原则决定这个展示给谁。这种定价主要是在搜索引擎里得到了巨大的发展,结果大家也可以看得见,自从互联网广告产生了以后,数以百万级的广告主——原来没有任何广告渠道和机会的中小企业,得到了推广的可能性,因为它只需要很少的预算,就可以得到一次非常精准的投放。

第三次变革,是实时竞价和程序化交易时代的到来。比如京东,会根据他自己的数据加工出他的流失用户人群,这个流失数据,媒体显然是不掌握的。这就意味着,广告交易要变成一种全开放的模式,媒体需要在每一个展示到来的时候,实时向需求方询问你是不是需要这一次广告机会,以及愿意出的价格,并且以竞价的方式拍卖。这样的方式实质上就解决了数据市场的交易问题,我可以用任何我希望的方式,并且按我的方式定价,它使得数据交易和交换规模化的发展起来。

第四次就是所谓场景数据革命。我们在移动上发现,banner、插屏这种方式,事实上并不能很好地获得用户的满意,因为对用户的打扰很强烈。从推特开始,包括现在的FACEBOOK,它们的广告增长都可以看到,大家都是在采用一种原生化的方式,把广告结合到用户的场景数据去展示。用这个东西去规范广告展示和广告投放,这样在移动互联网上会获得非常好的增长空间,这也是移动广告有可能比搜索广告具有更受欢迎的未来潜力的原因。

这是我们讲的四次主要变化,可以看到广告市场整体的推动力都是被动的,越来越精细。

“当前数据交易价格偏低”

中国这两年有很多数据交易所出现,但是我个人的看法,这些都跟我们真正期望的数据交易没有什么关系。我看了他们的交易,还是以报告和统计数
据为主,这些都是传统的咨询和调研的业务。在北美市场,数据交易并不是交易数据报告,这个属于洞察应用,我的看法并不是大数据交易。我们希望看到的是用户数据和用户标签层面规模化、自动化的数据驱动业务。

关于数据交易我总结了三大定律,这是我们在实践中碰到的问题:

1、真正的行为数据是不能关联交换的,只能交易不能交换和共享

为什么这么说?因为数据本身就等于钱。如果现在有人说,我是一个创业公司,为什么腾讯不跟我做交换和共享?这个很荒谬,你还不如让马化腾把他帐户上的钱打给你。你看到大量的数据是共享是发生在公司之间有更高层资本合作前提下的,否则是违反规律的。

2、数据交易该怎么做?

这里边有很多的技术要点。显然如果我有十个数据提供方,有十个数据需求方,如果大家点对点的方式做数据交易,这是很低效的模式。

广告里的数据交易为什么就能发展起来?因为他是一个中心式的模式。所有的数据提供方都把自己的数据放在广告交易所上,广告交易所是分发广告流量的核心节点,当需求方平台(DSP)向广告交易所整合,他不产生额外的消费,需求方和交易所是一种身份对等、自然合理的方式。要是没有这种中心式的交易模式,数据交易在广告这个场景下也不容易发展起来。

数据的交易还出实现了一个功能,数据交易实现了部分交易。我是一个广告主,我只需要对一个地方的数据进行布局,只有在设定好的条件范围内,数据交易才有产生的必要。而且收钱的时候,是根据是否赢得了展示机会,所以实现部分交易,让很多规模不大的交易参与到这个过程中。

3、到底怎么给数据定价?

现在的方式还是不够智能。数据产品和其他所有的实体产品或者我们刚才讲的广告产品都不一样。比如说有一瓶水,你卖给甲以后不能再卖给乙,一个广告展示机会给了第一个广告主,第二个广告主也就不可能再获得。这种资源都有只能使用一次的特性,但数据资源不是。比如我知道一个人是男的,这份信息可以卖给两个人,也可以卖给五个人、十个人。

但目前工业实践中发现,一项数据卖给多人之后,极端情况是所有广告主都知道了,他们都来竞争这个广告投放的展位,结果是竞价使得流量的价格抬起来,而数据获得的增益反而少了。

我个人看到的现象是:数据交易蛮发达的,但是价格偏低,因为我们没有找到核心定价原则,也没有找到一个真正市场化的定价手段。只有找到了这个点,数据交易的规模才有可能迎来新一轮爆发的机会。

“大数据隐私远比想象更严重“

关于数据的隐私问题,我每次都会讲到这个问题,因为我觉得大家讨论得很多,但理解并不是很透。

数据隐私并不是没有标准,专家也经常讨论一个观点——“解决数据隐私问题,政府要立法、制订规章制度”,这句话是对的,但是我要告诉大家的是,规章制度只能解决20%的隐私问题,剩下的80%还得靠产品和技术本身

欧盟有一个A29原则,第一条是PersonalIdentifiable Information (PII) 不能使用,必须脱敏;第二条是一个用户如果不希望你记录他的隐私,他要有权力终止;第三点是要求不能长期属性数据使用用户的行为数据,用户行为记录两年以上是不允许的。不论借用什么样的介质,不论数据保护的手段多么高明,只要数据长期堆积,管理上的漏洞风险会很大,所以严格禁止保存两年以上,而且不能进行备份。

这三点是最基础的,但是对互联网不太解决问题。有个例子是Netflix的推荐大赛。这个大赛需要由每个用户来进行打分,而有个参赛者在参赛过程中看到了一条记录,就发现了这个人是他的一个同事,然后又从这个同事的其他记录发现,这个同事有很多观看同性恋电影的历史,这显示是触犯隐私的。这说明,我们原本对隐私有一个认识误区,以为陌生人把你电话卖了就是风险,但事实上真正的顾虑是熟人,是对你的背景有充分了解的人。

在Netflix的例子中,那个同事把Netflix告上了法庭,Netflix觉得现有的技术框架下无法解决这个问题,于是这个大赛第二年就停办了。但是在我们的互联网中,我们没法回退到过去,把所有的用户数据都清理掉,否则整个互联网业务体系都得崩盘。只能往前做着看,未来有没什么办法解决这个问题。

在这里我要提醒大家的是,脱敏是无法解决问题的。所以我个人的观点,隐私是大数据使用头上的达摩克利斯之剑。

原文发布时间为:2015-12-02

时间: 2024-10-21 23:56:44

数据变现的历史与未来的相关文章

银行业大数据变现的三大关键

移动互联网出现之后,海量的用户行为数据产生了巨大的价值.2012年至2015年,大数据始终处于1.0时代,主要应用为大数据的采集.存储.处理.挖掘.分析等.2015年后,大数据进入以获取价值为主的2.0时代,即实现大数据变现的价值时代. 银行业是个高度信息化的行业,从核心的银行系统到ATM取款机,从信用卡到网银系统,银行在每个环节都高度依赖信息系统和数据.现在,如何把银行业大数据变现是所有银行最为关心的话题之一. 大数据变现主要是通过企业内部和外部两部分数据同时作用.在内部有业务交易数据.流程型

数据才是车联网的未来

"每一年都是中国车联网的元年." 看到有关车联网的报道,不由发出这样的感慨.这当然不是什么好的评价.因为这意味着每年都在推倒重来.从08年国内开始提到车联网,到2010年后各大车厂陆续发布车载系统,每年都能看到轰轰烈烈的车联网论坛沙龙和发布会,以及各种牛逼哄哄的新概念. 然并卵. 从3G到4G,从小屏到大屏,从语音识别到人工智能,从新能源到无人驾驶,几乎每种新技术都在给中国车联网注射强心剂.事实上,与其说是新技术促进了车联网的发展,不如说是所谓的车联网在"贴靠"新技

亚信张灏:打通各行业数据壁垒 让大数据变现畅通无阻

ZDNet至顶网软件频道消息:大数据时代已经到来,企业所拥有的数据日益激增,如何更好地挖掘数据价值,进而指导业务发展,产生更高效益,成为企业关注的焦点和追求的方向.2014中关村大数据日上,亚信提出了大数据资产的概念,及帮助合作伙伴提升大数据资产价值的最佳实践.借此机会,CSDN专访了亚信大数据事业部总经理张灏,请他分享了亚信对大数据资产的理解及最新研发成果. 亚信大数据事业部总经理张灏  大数据资产化管理的三大关键点 过去,运营商仅把数据看作一种服务,用于提供客户详单查询功能.随着大数据技术的

大数据“变现”,去除瓶颈还需哪几招?

自2009年大数据概念提出以来,越来越多的国家开始从战略层面重新定义大数据.2016中国大数据产业峰会透露,未来5年,大数据产业规模将以每年50%以上的速度增长.那么,大数据时代真的到来了吗?大数据应用过程中还存在哪些问题?日前记者走访了我国大数据行业领军企业之一的成都数之联科技集团. 降低数据挖掘"门槛",大数据赋能当"授人以渔" "我想这个时代还远没有到来."作为<大数据时代>的译者,成都数之联科技集团CEO兼首席科学家周涛认为,

2014中关村大数据日看大数据变现

大数据从最初概念的提出到成为像土壤.矿藏一样的资产,如何获取数据资产?如何利用数据资产推动行业创新?如何实现数据资产的增值和变现? 12月11日,2014中关村大数据日在中关村软件园云广场酒店如期召开,并通过纽约时代广场大屏幕同步呈现.大会以"聚合数据资产,推动产业创新"为主题,探讨数据资产管理和变现.大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题.大会还承载从政府主管部门到各行各业的需求和实践中的疑问,探讨包括政府.金融.运营商等部门是如何通过数据资产管理和运营,实现

简化的数据中心网络架构是未来方向么?

[51CTO.com 独家特稿]Juniper Networks在5月18日推出了一个全新的"3-2-1"数据中心网络架构.据官方称,新推出的架构它可以帮助客户扁平并简化其现有数据中心网络,即将原 有的3层网络架构减少到现在的2层.Juniper官方表示,今后会通过 "层云计划"(51CTO注:有关Juniper的层云计划请参阅<"层云"架构有望解决云计算瓶颈>),帮助企业实现单层网络结构.同时,Juniper认为在自动化.虚拟化和架

大数据变现,这里有9种商业模式,你走的哪条路?

在大数据成为趋势,成为国家战略的今天,如何最大限度发挥大数据的价值成为人们思考的问题.无论是对于互联网企业.电信运营商还是数量众多的初创企业而言,大数据的变现显得尤为重要.谁最先一步找到密码,谁就能够抢占市场,赢得发展. 大数据产业具有无污染.生态友好.低投入高附加值特点,对于我国转变过去资源因素型经济增长方式.推进"互联网+"行动计划.实现国家制造业30年发展目标有战略意义.前几年,国内大数据产业讨论较多.落地较少,商业模式处于初探期,行业处于两种极端:一种是过热的浮躁带来了一定的泡

大数据变现

大数据变现 中国人民大学信息资源管理学院 刘鹏 大数据思维和技术正在冲击着线上线上线下各行业.然而,这股热潮最终需要面对如何将数据转化为价值的关键问题.迄今为止,唯一以大数据驱动的规模化变现市场,是在线广告市场. 在线广告为大数据的价值落地带来了两方面的核心价值:一是整套的挖掘数据商业价值的技术和产品架构:二是与此对应的商业生态系统和数据交易逻辑. 因此,有志于从事大数据相关工作的朋友们,非常有必要对在线广告的产品和技术架构做认真全面的研究.本讲座将以数据在广告行业的应用为出发点,简要介绍相关的

大数据变现之琅琊榜是怎样炼成的

文章讲的是大数据变现之琅琊榜是怎样炼成的,在如今的大数据领域,大数据变"现"已经成为人们最为关注的话题,所谓的变"现",就是利用对数据的收集处理后给企业以决策引导,从而为企业带来真实的价值和财富.而想要变现,其中一大难点就是如何在特定的场景应用合适的数据和大数据技术.那么,在传统行业之一的影视行业中,大数据是如何发挥其作用的呢? 上周,IT168主办的2015 SACC中国系统架构师大会于周六完满落幕,大会的三天议程中,许多专家及业内人士到场交流学习.在SACC的&