大数据的5个“小观点 ”

有些流行词像雾霾一样浸透了北京的空气,偶尔清静几天,不时又卷土从来。“大数据”就是其中的一个词。

大数据外表光鲜亮丽,内则无可奈何

越来越多程序员也涌入大数据行业,但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的,最常引用Victor的4V理论,大量(Volume),快速(Velocity),种类多(Variety),价值(Value),但究竟多大是大?多快是快?几种算种类多?每个人都有自己的观点。最核心的问题还不在数量和种类,而是价值(Value)。什么是大数据的价值?如何体现它的价值?如何衡量它的价格 ?它能够变现么?如何来变现却是大数据的核心问题。

做大数据的同学,外面看起来像是红楼梦的大观园一样,外表光鲜亮丽,身在其中的人,才知道各有各的无奈。大数据的处理通常分为,数据收集,数据清洗,数据加工。数据应用,数据可视化。数据收集同学总是抱怨数据源Garbage in, Garbage out的感觉,数据清洗的同学总有沙里淘金的感觉,数据加工的同学也经常受两头气,相比来说,做数据可视化的同学比较幸运,可以找到很多炫酷的感觉,但有不是大数据的主流技术。最难受的是做大数据应用/变现的同学,不得不靠着忽悠行走江湖。

好了,列举一下我对大数据的小观点,如有雷同,纯属偶合。

小观点1:大数据的信息熵值低

1948年,香农提出信息熵的概念,可以用于表述信息的价值,信息熵高的言简意赅,信息熵低的冗余拖沓。目前,很多大数据的来源都是一些系统的Log,图片,视频等。特别是日志系统数据,数据越来越多,越来越大,其中大部分是固定模板的数据,区分度差,信息量并没有随着数据的增加而线性增加。另外举个例子,之前我们使用胶卷照片的,我们会选择重要的场景,珍惜每一个照片,设计好角度和光圈,现在有数据相机了,内存近乎无限大了,大家肆无忌惮的自拍,哪怕都是同一个角度,大家照的废片也是一把一把的。同一类型的数据多了,信息熵也就降低了。

小观点2:大数据不是银弹,是蚂蚁效应

大数据应用常见,多见于推荐系统,业务流程优化,医疗,性能优化,预测,金融交易等,这些业务在传统的做法上,已经十分依赖于数据了,虽然以前不叫大数据,但是也都是数据驱动的业务。数据的规模和种类增多,处理方法的增多,会渐渐提高这些应用的精准性,这种提高一定是渐渐的,一点一滴的。也许一天两天感觉不错来的,但是经过多年的持续改进,这种效果是显而易见的。

举个例来说,语音识别起始于60年代,基于小型词汇库,在90年代,IBM推出的ViaVoice是语音识别的一个里程碑,基于复杂隐式马尔科夫模型(HMM)或者神经网络算法更加成熟,数据也是基于大量的词汇库,语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库,效果有改进,但是还无法达到实用的程度。2009年以后,借助于互联网语料库的进一步丰富,数据料的增长,远远超过算法的改进程度。语音识别在准确性和实用性得到很大的提升,用户也不断使用语音识别反馈更多的数据。以至于,谷歌公司人工智能方面的专家彼得·诺维格(Peter Norvig) ,和他的同事在一篇题为《数据的非理性效果》(The Unreasonable Effectiveness of Data)的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”。大数据正在一步一步的解决一些科技应用难题,例如自动驾驶,人工智能等。

小观点3:大数据不解释因果关系,只关心相关性

《大数据时代》中定义了大数据的第三个特征,“不是因果关系,而是相关关系”。沃尔玛通过数据挖掘,发现蛋挞和飓风产品有很多关联性,并且放在一起销售提高销售量。没有人清楚其中的因果关系,当然,也可能有人牵强的解释,美国人喜欢飓风时期躲在家里吃蛋挞,通过数据我们获得了相关性,但是却不理解其中因果关系。我突然想起来自于《三体》的降维攻击:很多时候我们在二维世界的相关性,是无法在二维世界进行解释因果的,也许只有在三维或者多维世界才能够解释因果关系,而这种因果关系无法直接理解,只能进行归纳成相关关系。

小观点4:大数据资源公司最佳变现是被收购,而后是广告和征信

很多专业大数据服务公司的发展都不走上市之路(注意不包括大数据技术公司),因为他们对于变现的能力和可持续性都有很多顾虑,他们也面临高风险的用户隐私挑战,因此很多大数据资源公司的PR工作,远远多于具体落地的数据服务工作。因此,各个专业大数据公司都忙于各种行业洞察报告和排行榜,数据可视化的工作一个比一个炫丽,一个比一个追热点。谈到大数据公司的变现,很多公司会提到“数据服务”,实际上数据服务的市场相对稳定,并没有因为大数据公司的发展而市场膨胀,因此“数据服务”实际上是一个明显的“僧多粥少”的状态,另外老牌的数据公司,例如Nielson等在客户方便还是有一定的优势。

收购成为大数据公司变现最佳方式,2014年Oracle收购BlueKai获得很多众互联网用户数据,BlueKai的数据来源于和很多小网站进行数据交换和购买,尼尔森公司收购了DMP公司eXelate,eXelate的数据来源各个合作伙伴的数据,它提供了数据共享和交换的平台,创建DMP支持广告优化投放。 2014年,农业技术公司孟山都宣布以9.3亿美元巨资收购意外天气保险公司Climate Corporation. Climate Corporation是一家分析历史天气数据的公司,如降雨和土地质量等来帮助农民预测作物产量。在中国阿里巴巴收购友盟也是觊觎数据资源。

既然数据服务不容易攒钱,那么有没有靠谱的变现途径呢?从目前来说,广告和泛征信是两个最有效的变现渠道,效果广告的精确投放,品牌广告主需要强烈的数据背书,这些都需要数据服务,因此在广告行业专业的DMP公司,对于程序化交易是必不可少的。另外,就是征信系统,金融的本质是一个套信用系统,这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存,主要依据就是风险控制,大数据是重要技术支持,因此很多P2P会采购大量数据资源,加强自己的征信系统。

小观点5:大数据是对用户隐私的汲取

大数据正在结合智能设备的普及而大力推进,例如摄像头,手机,智能穿戴设别等。 其中,大量用户隐私数据被收集,例如用户地址,交易数据,搜索数据,用户的地理位置信息,用户的脉搏,联系人列表等等。这些都是用户的个人数据,各大数据公司都通过改善服务为借口,获得用户的授权,而进行隐私的汲取和偷窥。

也有一种声音,这些数据是为了让你享受更好的服务。这里面也是很多逻辑问题。首先,服务商提供更好的服务,并不代表可以收集用户的隐私数据;其次,很多公司不提供不收集用户隐私数据的服务的选项,这让很多用户无法选择禁止用户隐私数据收集,这是一种利用市场地位的垄断和霸王条款;而后,所有数据公司没有提供数据清理功能,删除用户所有的历史数据。这意味着,你的隐私数据一旦被收集,可以被无限次的无范围的滥用。

结束语

好了今天先谈这么多,大数据很忽悠,小观点也不一定靠谱,兼听则明,偏信则暗。希望大家在大数据的雾霾里面找到自己的新鲜空气。



分享者简介

欧阳辰 ,目前就职于小米公司,主管小米广告平台的架构研发。毕业于北京大学计算机系,获得学士和硕士学历,拥有超过15年的软件开发和设计经验。曾为微软公司工作10年,担任高级软件开发主管,领导团队参与微软搜索索引和搜索广告平台的研发工作,曾负责微软上下文广告的全部研发工作,包括系统架构和数据算法。曾在甲骨文公司从事数据库和应用服务器的研发工作。个人公众号:互联居



                                                        中生代技术群微信公众号

                                               

时间: 2025-01-01 10:12:53

大数据的5个“小观点 ”的相关文章

中国离大数据时代还有不小距离

摘要: 为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒.阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势.但即使是这个行业的先行者,离大数据时代也还有 "为了迎接即将到来的大数据时代,各大互联网公司都在争分夺秒.阿里巴巴在公布大数据分享平台之后的半年中,也全面启动了攻势.但即使是这个行业的先行者,离大数据时代也还有不小的距离." 刚刚过去的2012年,秦予有个很大的遗憾,就是没能招聘到自己想要的数据科学家,浪费了公司给的招人名额.他是支付宝用户价值创新中心的负责人.

大数据将如何改变小生活

  近年来,大数据产业正深刻改变着人们的思维.生产和生活方式,正在掀起新一轮产业和技术革命.大数据与各个行业的深度融合,也正在迸发出前所未有的社会和商业价值.近日,2016中国大数据产业峰会暨中国电子商务创新发展峰会(简称"数博会")在贵阳召开.连日来,本报记者在本次峰会发现,已经悄然影响.融入人们生活中的大数据产业,在推动产业转型和新型工业化的进程中,实现了经济发展与生态改善双赢. 另外,技术本身是中性的 , 并无好坏之分,但其发展应用的最终目的是造福于人类.当下,正成为经济社会发展

大数据时代:《小时代》的生存之道

由青春文学作家郭敬明编剧.导演的电影<小时代>以上映首日45%的排片占比,以及两天过亿.三天过两亿.六天过三亿的票房速度,位居内地电影的前三位.以"90后"为主体.数量庞大的郭敬明粉丝与众多业内人士,构成了泾渭分明的两个阵营.从电影本身到引发的热烈争辩,让<小时代>成为中国电影产业的一个特殊案例. 在全球电影观众趋向"低龄化"的背景下,青年观众无疑会成为未来中国电影的主力观众.这样的受众势必会影响到电影的创作趋向,他们的观影需求值得关注.引导

Java在处理大数据的时候一些小技巧

众所周知,java在处理数据量比较大的时候,加载到内存必然会导致内存溢出,而在一些http://www.aliyun.com/zixun/aggregation/14345.html">数据处理中我们不得不去处理海量数据,在做数据处理中,我们常见的手段是分解,压缩,并行,临时文件等方法; 例如,我们要将数据库(不论是什么数据库)的数据导出到一个文件,一般是Excel或文本格式的CSV;对于Excel来讲,对于POI和JXL的接口,你很多时候没有办法去控制内存什么时候向磁盘写入,很恶心,而且

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

大小数据 | 辨析大数据价值与小数据洞察

大数据技术的出现带给人们的思维方式.行为方式.媒体传播方式及社会治理方式等都诸多方面带来了革命性的变革.<大数据时代>一书的核心观点是说:"在大数据时代,我们正经历着一场生活.工作与思维的大变革. 我们没必要非得知道现象背后的原因,而是要让数据自己发声."在大数据时代,相关关系能够帮助我们更好地了解这个世界,建立在相关关系分析法上面的预测是大数据的核心,通过找到"关联物"并监控它,我们就能够预测未来. 作者还提出了"大数据三原则":要

大数据的小时代,没有“IOE”也能玩转智慧城市

如今一谈到大数据,人们就会联想到数百TB以上且规模不断增长的Hadoop集群系统,人们为过去两年我们制造了超过人类历史总和的数据量而感到颤抖,但实际上大数据可以很小,甚至在智能手机和笔记本上就能进行分析处理,而聪明的机器学习算法能将大型强子对撞机数据分析工作量减少上万倍:后大数据时代,人们将更加关心如何让大数据"大事化小". 但在粒度更小,数据规模却更大的智能传感器时代,在一场官方色彩越来越浓的"去IOE运动"中,如何利用本土低成本技术资源,在Hadoop之外寻找一

大数据时代的“小数据”

如今,CIO们都已经接受了"大数据"的概念,另一个概念也逐渐受到关注:小数据. 这两者看似是相对立的两端,但是这不完全正确.小数据往往指数据量;而大数据当然也包含了数据量,但是也包含了多样性,时效性,特定的技术或者其他概念. Kirk Borne,是美国乔治梅森大学的天体物理学和计算机科学的教授, 他认为这两者的区别是很重要的.Borne有关大数据的课程专注于大数据的属性和先进的分析技术, 而这些也几乎总是可以应用于小数据.但是后者却可以使学生进行实验,磨练他们在数据分析上的技能.而大

童小军:用户是大数据的本质驱动力

文章讲的是童小军:用户是大数据的本质驱动力,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 童小军,EasyHadoop开源社区创立者.Hadoop云计算讲师,专注于Hadoop大数据技术普及和推广工作,致力于让Hadoop大数据应用更简单.曾任暴风影音数据