【CSDN现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。
中国移动苏州研发中心大数据产品部总经理钱岭带来的演讲是“电信运营商大数据商务模式研究”,通信管道是大数据的一个重要来源,钱岭认为大数据主要有六种商业模式:数据销售、在线数据访问;云计算工具商店模式,平台和工具出租;免费大数据业务,收取广告费;运营实时竞价广告平台;情报分析;增强机器智能,辅助人脑。运营大数据的成功模式有:前向模式,直接带来销售收入是最省事的方式;后向模式,广告是互联网最成功的商业模式;间接模式,降低运营成本,减少设备或人工投入;辅助模式,提供技术平台和工具。
中国移动苏州研发中心大数据产品部总经理 钱岭
以下为演讲实录:
钱岭:各位来宾下午好!非常荣幸有这个机会站在这块跟大家分享一下我的一些思考以及我们近期在苏州研发中心做的一些研发工作。
我演讲分成三个部分。
我们做了很多年的技术和产品开发,接下来做了很多应用解决方案,做了很长时间以后,发现这个大数据依然没有摸清楚门道,还是有点稀里糊涂,原因在什么?不是技术问题,我们团队克服了很多技术难题,而是在业务模式上,这个数据到底有什么样的价值,为谁所用,在生态圈里各有各的角色这个没有被划分清楚,我的演讲会从近期遇到的项目说起,引发这样的思考。
第二,把我以前考虑的大数据商业模式一些可能一些已经现在存在跟大家分享一下,当然不是很体系化的,也是一点点,一个场景一个场景的。
最后,谈一下这些场景下电信运营商它的大数据应该怎么经营和运营。
我一直跟踪大数据热点情况,即便到2014年的情况下,大数据还是有点泡沫的情况,大家没有想清楚要做什么,大约在2011年2012年云计算也跑到峰顶,然后很快到峰谷,那时候出现一个情况,大家把云计算层次分清楚。而现在,谁也不知道为什么做大数据,就是炒作了。
作为电信运营商来说,说不上传统行业,技术在变化,固网通信或者256K现在变成4G、无线并不是很传统,电信运营商有大数据一种形态,随着视野放宽,在生命科学、天文、高能物理研究方面都有各自大数据的要求模型和形态,而对于运营商,他的大数据形态是管道大数据,当然我们也知道把业务大数据ERP大数据跟这些大数据规模是九牛一毛了,最大的数据在于管道里面的数据。管道数据价值比较低,它提供了用户行为数据,把用户使用习惯包括社交网络行为轨迹、偏好等等方面的特征,用户行为串起来了,但是里面没有说喜欢什么,把用户真正喜欢什么以及今天喜欢什么,以后喜欢什么要有序列化的刻画属性梳理清楚。
我们知道在无线通讯里面,管道里面主要跑的信令数据还有LTE的信令,对服务不满意打电话,多媒体的录下来,也会分析,你打这个电话是不是很有意见,客服怎么回答,对于改善业务评价的来源。
我们考虑清楚了,能用几个用途,网络优化、精准营销和业务创新,这是大数据在电信里面用的四大领域,即便这么想,数据跟四大领域功能到底是什么样的关系还没有完全梳理清楚。
接下来讲一下之前碰到一个项目,也不算大项目,大概涉及到采集信令数据,6个Gb,一秒钟有很多数据过来,要跟政企客户数据相关联,为他提供决策支持依据,但是这个看起来,这个项目拿到时候一看可以做,看上去也没有什么了不起的项目,仔细一算成本有问题,第一在传输方面,如果是6Gb带宽要用网上采到自己家,我查了一下宽带费用大约一百万的费用,存储加工处理生成加工报告这要什么样的成本?基本上你投资要投资一两台服务器一千万,加上交换机基础设施,再考虑运维电费,人工运维成本一个月花十万不算多,你要给客户做分析报告,初期,你要刚起步一个报告花上一个人分析清楚也差不多这个水平但是客户就几个,一个客户一万块钱,两个月输出一个报告两个月20万块钱,一年50万块钱,得不偿失,做这件事情,你获得收益没法满足成本。
传统技术没法解决一些数据处理分析问题,这些问题引发思考有一个悖论,说有价值,价值前提你能把价值找出来,投入很大资源把价值找出来,这个投入由谁来付,客户只要一万块钱的报告,你要一万块钱的报告要花一千万得出来,你是得不偿失的。
怎么得到大数据的效率也是很大的问题,某种程度上是不是烫手山芋,你投入非常大,你到底是留他还是不留他?接下来想想,为什么能做大数据或者号称自己能做大数据,看看别人怎么做大数据,用大数据来挣钱,所以这个商务模式简单说,我生产什么怎么满足客户需求,怎么样产生一个现金流,然后怎么样让现金流正向若我活下去,而不是炒一个泡沫,把小公司卖掉,不是我们的风格。
先说第一种模式,数据销售的模式,在数据销售之上更细一点提供数据访问API,基于两种方式,有线上线下,也包括数据打一个包一起卖给你或者给你提供API,API需要认证 根据数量质量、size、访问次数,这是很直观的感受,我把数据采完以后做信令合成,大概300、400万的样子,给用户,比一千万便宜得多。看起来这种方式是比较简单。国外电信运营商或者固网运营商有销售数据历史,你像有些公司Hitwise,购买数据生成报告,卖给相关的企业用户、行业用户然后做一种咨询方式。另外我们也知道新浪微博,微博做的比较大了,他们投给销售全量微博访问数据,他们叫授权使用,非广告收入大概是2千多万美元,没有含微博增值服务,有一家小公司为什么注意到这个事,有一家小公司叫Effyis,这个公司它2013年数据销售收入,有新浪微博全量数据,能够帮用户分析来寻找一些我被投诉,用户对我产品投诉,来自微博是什么,推特是什么样,来自其它社交网络是什么样的,销售750万美金,被日本一家公司2千万多美金买了。微博发布的数据,月活跃用户,每月发表微博条数,和月活跃用户。一个数据销售市场,我建立一个销售交易平台,交易平台是B2C或者C2C,是数据堂,他们有C2C的商业模式,上传数据,用户可以上传字形定价,部分经过处理的微博数据,大V微博信息,一算一下1到10元MB。
有的小公司Juhe.cn,我们说数据访问,包括基站位置,告诉你经纬度在什么位置,你可以把你车号告诉他,你的违章情况,每次查询价值在0.1分钱到1毛钱左右的样子。
另外现在比较多的地下数据黑市,我们碰见过,价格卖得非常贵,有银行有黑客爬的数据,以前的数据泄露都跟他们有关系。
第一,提供数据销售服务,提供线下线下的各种使用方式。
第二,有点像云计算供应商店,提供平台工具的出租,自己并不拥有,你用他的平台算,算完你拿走。技术存储,机器查询,数据集市出租给客户,按需来支付租金,这个它有一个特点,租金比较透明是一个写在网上的价格,按照小时,按照Gb按照时长收取费用。
现在做最大的亚马逊的数据库,数据采集导出导入,数据的存储有各种各样的形态,有热的有冷的还有实时在线的,还有P处理的,还有数据仓库UC2,这样的价格大家上网查很透明标得很清楚。
还有谷歌的BigQuery,发过一篇论文Gmail,基本上到一两千个容器。数据存储一个月Gb就2.6个美分,处理数据包括流包括各种方式,你做一次查询或者做一次分析,一个Tb收五美金,能不能挣钱我想没明白,除非资源调度非常好,利用空余时间算的话,能挣钱。
还有Gooddata,数据集市仪表盘,最开始有报价,我查了一下2010年1GB500美金,50GB是5000美金,比单纯存储租金和计算租金要贵很多。
DataHero,不是用你自己的数据,让你的数据来源于网上各个地方,你可以从从谷歌云存储来,也可以从亚马逊来,把数据可视化,数据服务模式,小数据大概10兆b是49到59美金每月。
还有软件云化,把我做的各种各样的软件,咱们能知道的一些开源或者一些商业化软件,部署在工作云,跟亚马逊分成,Tableau、Qlik都是这种模式,第二种模式工具商店模式,租金比较透明,产生规模效应来增加自己的营收。
还有免费大数据业务,收取广告费。服务商提供免费大数据服务,比如搜索引擎、百科、文库、地图、音乐各种各样的搜索,附加后面的后项收费的广告,广告和广告主代理来支付广告费用,围绕广告业务延伸出排名、受众监测这样的服务,都是依附在大数据服务后面增值的广告服务,广告最大的是谷歌,它有各种各样的搜索,音乐、地图,在2010年截止索引1万亿以上的网页。2014年谷歌Q3营收21.88亿美金,后面还有RTB广告模式,谁的流量大谁就能活下去。
百度系列也差不多,也是有各种搜索,有文库、贴吧、地图,也是21.88美金。主要通过每千次进行收费,但是也有差别,视频和网站不一样。另外广告关联业务,监测广告的效果,你做了广告以后总有人需要为广告买单,买单人说我做广告值不值,有人提供监测这也是大数据的行为,之前帮过他们做过一些事情。最后让用户知道,中国有中国的Neilson,亚马逊的Alexa也做过,收入也不低。
运营实时竞价广告平台,利用用户行为数据建设DSP五,一般也会有独立第三方DSP平台,跟广告投放相关,DNP提供用户匹配与用户(酷卡)用户匹配平台,与SSP门户网站部分跟广告交易平台互相操作,提供一个RTB服务,宣称比传统广告更加精准一些,广告主投放的广告,用RTB投放会产生更精准的匹配,传统广告属性不够多,然后也许有一些别的数据来源于别的网站不够全,没有那么精准,营销口号就是我更准确的。2016年140亿美元,全年。
DoubleClickAd Exchange和雅虎是最大的两个交易平台,占美国RTB流量90%
阿里Tanx,他们有一个特点有用户行为数据,搜索这些人对什么感兴趣,阿里是一个电商,上面的浏览搜索购物行为结合在一块才是有意义。
亿赞普作为DSP、ADE,每千次展示的价格比前面更贵一些,广告主买的量更少一些,不会像前面盲目,投放,这个量20万亿,价格差不多,承诺的是广告效果更好。其它的各种各样的凡是有数据的人,包括像腾讯、百度国内其它但凡都能想到,只要你有用户行为数据包括社交数据都可以建RTB平台产生交易。
这个数据通过合作购买拿别人的数据,混在一起最关键输出一堆用户ID以及用户ID对应的行为,一般是终端ID或者其它的一些相关苹果手机的ID,这些ID,广告主根据这个ID所发生的行为跟现在用户过来的请求相结合决定是不是投广告,一个用户来投给他放广告,很多广告主要放,就有一个竞价问题,一百毫秒就可以测算,这是竞价广告是比较常见的模式也是产生价值的模式。
第五,情报分析,比较复杂。咱们俗称人肉搜索,生命力非常强。它是依靠数据收集和分析获取针对目标对象,包括个人、组织、行业、国家一种不同颗粒度单位动态的一些,做什么事情发生什么事情或者它的属性是什么,背后有什么,然后与他的信用情况属性然后来采集,聚合,分析,分析以后做业务支持,这个做了几十年,舆情分析,一般微博、论坛、新闻门户、社区各种网站数据机,通过自然语言的方法,情感分析的方法,发现这个人发表什么样的言论,猜测这个人的属性,猜测他的性格,我们常用叫用户画像,描绘成一个什么样的人,打上不同的标签。
另外,现在比较多是征信服务,但他用的是银行金融领域,用行为数据,位置数据、消费数据内容,建立个人信用档案,当然前提是依法采集,客观记录信用信息,根据信息披露出来以后,在上边附加一些增值服务。
第三,公共安全,这个情况也比较类似,用于发现和预测公共安全的事件,这种情报分析领域不是很透明,情报价格也很差,公安局要抓逃犯,悬赏十万块钱,一条信息值十万块钱,但是它是不是违法是一个值得考虑的问题。
最后一种模式,增强机器智能辅助人脑,就像片子列到油污创新或者业务优化,主要做的事情采集一些数据进行数据分析和挖掘,寻找数据表规律性的东西,逐步用机器智能性的东西辅助或者逐步取代人的部分功能,这里面刚才还跟我的同事讨论,移动里面有一些工作叫垃圾短信处理,垃圾短信来了以后是不是垃圾短信,先处理。发票不好好写了,加空格,加数字,人知道,机器不知道,为了让通信环境更好,运营商识别这些号码,把这些号码关停,怎么识别?短信不一样,不能靠单纯条数,但是只要人眼就是垃圾短信,肯定要把它停掉,你不好弄,最后的方法需要数据挖掘方法来寻找相似度,找到相似度之后,如果你老发这样,一个号码里边,发了五条,阈值之下没有问题,超过阈值了,根据以往通话行为或者从来不通话,发现你这个号码有问题,停掉这个号码,如果没有机器来做这些事情,所以人工来做,移动投入很多客服这种事情,成本很大,用机器来识别的话就会提高用户体验。
再举几个例子,谷歌的无人车行驶超过30万公里了,还没有出事,通过摄像机各种方法监测,就像车联网提供了对道路识别,对周围物体的景观采集以后也来进行识别综合在一起包括车速、限速考核在一起让车开起来不出问题,中国有一家车企业搞这件事了,说比谷歌还好。
还有谷歌大脑,模拟人的学习,最后的效果,能在youtube上是识别人脸,这没有太大的意义,用1.6万台电脑,这成本当高啊,不挣钱。
另外还有EverNote辅助思考,根据用户在笔记中记录的内容分析用户的思维方式,人写的笔记识别人的思维方式,根据思维方式给你推荐相关内容给你,正在写的内容推荐给你,简化你的写笔记这件事情。这个就是用一些人工智能方面,结合大数据分析方法,让业务变得更好,业务变得更轻松这是大数据的未来,但收益看不太清楚。
下面就把前面刚刚讲的小结一下,有一种直接卖数据,最省事的办法,把数据打一个包,ETL处理,打过包卖出去最简单。对于社交网站,本来公开数据,不用处理,改就行。
第二,后向模式,是互联网广告最成功的模式,以前是现在也是,未来还是。为什么互联网靠有限的广告活那么好,我也没想明白,可能广告模式还是非常成功。
第三,简介模式,降低运营成本,减少设备或人工投入获得收益方法,简介的模式。
第四,辅助模式,我提供技术和平台和工具,但是我并不提供,所以有点像淘金桥造火锹。大数据服务可以DSN和应用级服务。
互联网企业建大数据平台要有很长的周期,谷歌开始做这件事情,到2010年Gmail发布达到了里程碑,脸谱花了三四年时间建立大数据平台,Linkedin,大数据部门建立花费6年。
从阶段上看,功能上看,做的事情来看,要经历独立应用、架构调整、数据整合,数据平台几个阶段,开始的应用是竖井式的后来会把它整合在一起。
第三部分,几个商业模式的思考。
第一,决策问题。运营商是源数据采集者,结合跨越数据提供会聚服务,结合能力可以提供对外数据服务,结合应用开发能力可以成为数据应用提供者,下面管道采集数据,快速整合以后提供数据服务,当然运营商上面也会做一些工具、做开发、做咨询,对场景提供这样的服务。
第一种模式,作为大数据收集者做DaaS服务,都想要电信运营商的数据,把数据加工、汇集、分析以后提供逐条或者批量访问API,定价模式,按照数据规模、价值频次收费。缺点,出售原材料,未能充分文化价值,有较大隐私泄露风险。
第二,依托移动云平台,提供PaaS工具服务,有数据不知道怎么分析,托管用户数据,提供计算能力,提供数据处理工具,定价模式,按照云计算模式收费,缺点没有利用大数据来增加云计算的价值,是个白菜价,优点,不需要利用自有数据,没有数据风险。
SaaS模式太多,我举一个例子,建设数据管理平台为例提供互联网广告服务,服务对象是给DSP提供服务,提供海量Cookie数据,提供DSP竞价,定价模式按照数据规模价值频次收费,缺点有很大隐私泄露风险。优点,Cookie库丰富、同时具有IDFA、IEMI等库存,可以提供精准位置服务,费用比较低一点。
最后是广告页欢迎加入中国移动苏州研发中心,谢谢大家!
更多精彩内容,请关注直播专题2014中国大数据技术大会(BDTC) ,新浪微博@CSDN云计算,订阅CSDN大数据微信号。