大数据不是神话,不是泡沫,是在其上构建的创意和生意

最近10年,没有一个技术名词能像大数据一样深入社会每个阶层,获得这么广泛的关注。大数据被讨论得如此泛滥已经引起警觉,以至于2013年后,真正从事大数据行业的人尽量避免提及这三个字。本文无意对大数据概念做任何修正,评判,或专家论调。只是一些事实,和来自20年数据分析从业经验的一些感想。

1 辉煌的十年

大数据浪潮来自三股力量推动:技术社区,市场,学术圈。

2004, Google 发表了 “MapReduce: Simplified Data Processing on Large Clusters”,明确提出 MapReduce。值得注意的是,Google 并没有发明什么,’分布执行-中央汇总’ 是最朴素古老的并行思想,Google 这篇文章价值在于,把这种并行思想流程化、规范化了,并提出了可能的实现架构。市场迅速对此作出反应,很多软件实现涌现出来,其中最成功的是 Hadoop, 雅虎慷慨地把它交给Apache 软件基金会。之后数年经过无数人努力发展成了完整的工具栈。

2008年前后以安卓手机为代表的智能设备开始普及,信息采集成本前所未有得低,物联网,大数据变现前景变得乐观。众包思想,自媒体概念深入人心。

2010年,无人驾驶汽车开始测试,2012年3月到2013年12月,美国先后有四个州通过了自动驾驶汽车可上路测试的法律。

2011年,IBM 机器人 Watson,参加美国智力节目Jeopardy,挑战两位人类选手Ken和Brad,获胜。

2011年,深度学习(Deep Learning) 引爆了学界,深度神经网络,ensemble learning, 增强学习这些高度依赖数据规模的算法得到应用。 年度大事件是 “谷歌大脑” 项目实现了机器系统对各种不同类型猫图像的自动识别,正确率与人类判断接近。

2012年11月,大型国际科研合作项目“千人基因组计划” 二期目标完成,这一成果将有助于更广泛地分析与疾病有关的基因变异,改善全球人类健康状况。 2013 IBM Watson 系统,微软小冰,苹果Siri 全面开花,标志着大数据进入深层价值阶段。

2014 年中,善解人意会聊天的微软机器人小冰出生。

2015 年底,Google 开源智能引擎 Tensorflow。 我只列举了我熟悉的领域标志性事件,实际上每一年每个领域这个列表可以铺满一页。

2 大数据仍然是巨人游戏

每次重要的技术革新都带给市场一次重新洗牌的机会。这次革新体现尤为突出,值得注意的是这次变革开源社区一开始就参与进来,并且始终在技术层面上推动。这一点不同造成影响非常深刻,甚至改变了游戏规则。

第一就是传统巨头和初创公司之间的硬件资源壁垒变的不明显了。Hadoop 问世之初被称为’穷人的大数据’,因为可以低成本使用廉价硬件堆叠计算能力,给那些买不起 IBM 小型机的企业,特别是创业公司,与巨头竞争的机会。另外网络和智能设备的普及让数据的流通属性发挥的淋漓尽致,一个热门服务短时间就能吸收巨大的数据流量。 这其间很多创业公司迅速从几人小团队发展成独角兽公司。

相对小公司的热情拥抱,大公司用谨慎的步伐适应这个转变,特别是传统行业。第一怀疑开源产品的稳定性和安全性,第二大家习惯了付费从厂商得到支持,而不是自己参与到工具维护开发,甚至回馈技术社区。可是一旦度过转型期,大公司充分利用自己的渠道优势,资源优势,会想尽办法把大数据变成巨人游戏。技术只是入场劵,在所有门槛里,这是最低的一道。巨人的游戏考验的是装备,耐力,人力,业务积累,那些成功的小公司的绝不是凭技术胜出。

大公司的优势之一是积累深厚,后劲足。大公司还有个优势是,有足够体量消化大数据的能量。如果公司业务线丰富,比如阿里、腾讯、百度、平安等,同一份数据在多个业务部门都可以释放一次能量,这给了大公司更多空间对数据精耕细作。

3 不要把数据本身当作唯一壁垒,建立自己的数据闭环

数据是非常脆弱的核心竞争力,数据本身不管多么大,无法支撑一个公司的长久运营。脆弱的原因是收集成本与复制成本极度不对等,特别是当前监管落后市场很多,一家电商网站一年的交易情况一个盘阵就可以塞满;在线地图厂商走遍每条街道手工采集的POI数据一个星期就被爬虫收入囊中。公司在制定数据战略的时候要认真考虑这种不对等,多层布局要把数据资产持久化运营和精细化运营。这方面的例子很多,实际上回顾 2010-2015 的互联网的圈地狂潮,大伙儿都在做的两件事就是:抢占入口,自建闭环。为了抢占入口各种地推烧钱,明争暗斗无需多言。入口抢到了闭环的建立更困难。典型的数据闭环是:数据在消费端生成,通过交易、服务渠道完成采集,经过清洗汇总进入仓库,加工分析应用到业务流程,市场反馈再通过消费端回来。这个闭环对业务流程的增量改进意义重大。

说到闭环建设,亚马逊和 eBay 5年间的地位更替很有代表性。 2015年,亚马逊值刚刚超过了3000亿美元,eBay 曾经是亚马逊的主要竞争对手,在金融危机的2008年,两家公司的市值还不相上下,但是现在只是它市值的四分之一。这5年发生了什么?亚马逊是非常在意渠道建设和闭环打造,除了在线交易,在云计算,物流,支付,智能硬件,电子出版,新媒体都有大量投入,相比之下 eBay 的资源高度集中在自己的主营业务上。1995~2000年互联网刚刚起步,亚马逊采取的直营方式便于培养早期的用户,但到2001~2007年电商快速发展,抢到流量就是抢到钱,eBay这样的轻资产模式很快就能实现变现,所以它也是最先盈利的电商之一,此时亚马逊是落后的。2008年的金融危机之后,电商行业又经历了新的变化,交易额高速增长的时代告一段落,公司价值的竞争由过去的单纯交易额和用户驱动变成了价值链经营驱动,而实现了闭环经营的亚马逊的市值又实现了反超。2015年第二季度,亚马逊服务收入已经超过60亿美元,其中三分之一来自云服务,其他的来源还包括云平台、物流、广告,这部分业务可能会成为亚马逊未来盈利能力的主要来源。

4 让大数据工作落地

大数据最关键的一个环节是数据解读。如果并不懂数据的作用时,他们就不会参与,当他们不参与时,数据就没有价值。数据团队的工作如果不能落在实处,前面所有环节都是徒劳。

Airbnb 公司的例子为数据团队如何推广工作结果提供了很好的范本。

Airbnb是成立于2008年8月的旅行房屋租赁公司,Aifbnd 非常有远见,在团队只有7个人的时候就有了专职大数据工程师,公司发展中每一次重大决策,数据团队都发挥了重要作用。在早期团队规模小的时候,大数据团队工作模式是集中式的,分析团队的意见可以很快传达到决策层,业务端的反馈也同样。随着公司成长,沟通链条变得越来越长,数据团队有被悬挂的感觉。其他同事不明白如何和我们互动,其他人对我们没有完全的理解。随着时间的推移,数据团队被看成一种静态资源,被要求提供数据,而没有能够主动思考未来的机会。随后数据团队被重新组织。仍然遵循集中的管理,但是走出自己的小组,进入每个需求部门,直接同工程师、设计师、产品经理、营销人员等等沟通。这样做增加了整个公司的数据利用率,也使数据科学家成为积极的合作伙伴。如今Airbnb用户遍布190个国家近34000个城市,2015年2月28日,估值将达到200亿美元。

5 相信数据,不凭感觉决策

以往的分析模型大多是大模型+小数据,我们对模型本身做很多的假设和约束,人为干预在抽样环节已经开始,在结果出来前就已经针对预期输出准备好可能的解释。大数据时代有个明显的特点是分析手段趋向粗暴简单。无需抽样,也不对分布做太多假设,用全样本输入;以深度神经网络为代表的大数据模型对解释性的要求降到最低。这种大数据+小模型在很多领域取得了成功,特别是在决策短的情况下,只要数据量足够大,可以得到一些直接的洞见。

2006年以前,赛林格受命用大数据为亚马逊增加营收,那时亚马逊作为单纯的在线零售商并不为起平台上的商家做广告,塞林格认为在广告销售有很大的利润潜力,于是将这件事汇报给了自己的老板贝索斯,后者认为这是个愚蠢的主意 “我们是零售商。为什么要销售展示广告?”。尽管贝索斯不喜欢也不支持这个想法,但是他允许赛林格的团队在网站上进行小规模测试,结果成为了亚马逊有史以来最盈利的项目,他们把协同过滤,结构最简单的推荐算法,做成了大数据一个经典案例。

6 大数据不是良药 大数据还在进化

大数据决策的另一个极端是过分专注于大数据的技术讨论,而忽略了一个基本事实:大数据不会改变业务维度的复杂性。尽管大的趋势是很多业务问题可以变成技术问题来解决,但是经历十年快速发展,我们仍然处于大数据的初期阶段。这个时期大数据的解决问题思路仍然是横向的,试图从量上突破。已经积累了大量数据的企业,可以快速兑现历史红利,当前的火爆很大程度是确实很大一部分过去二三十年甚至更久数据积累的一次集中释放。当浅层数据价值挖掘干净后,如果没有健康持久的业务模式,问题还在哪里。现在我们的大数据在五年后会变成小数据,MapReduce,Hadoop,stream computing 等概念会变成理所当然的基本操作,甚至集成在语言本身,在业务层面感知不到它们的存在。现在或许是大数据最热闹的时代,当在大数据真正回归业务的时候,才是大数据最好的时代。能活到那一天的都是从现在开始把大数据往深处做的人。

大数据不是神话,不是泡沫,它是一些实在的工具和方法的综合,是在其上构建的创意和生意。大数据已经走过十年辉煌,让我们继续期待。

本文作者:佚名

来源:51CTO

时间: 2024-12-23 07:46:28

大数据不是神话,不是泡沫,是在其上构建的创意和生意的相关文章

大数据发展之困难时因为国家战略没跟上?

大数据在IT圈大佬们的建言之下又亮了. "大数据的重要性毋庸置疑,目前主要是各地政府出台了一些大数据行动计划或实施方案,但国家层面上没有制定切实有效的大数据战略." 在今年两会上,小米董事长雷军建议,迫切需要从国家层面上制定大数据发展规划.以往大数据的探讨多停留在行业圈,如今提升至两会议案将大数据层次的探讨又迈进了一大步. 维克托 迈尔 舍恩伯格在<大数据时代>中精髓的观点便是--可以将充斥世界的海量大数据采用数学算法予以"提纯".钻取并随后或抽出规律,

O2O与大数据:下一轮资本泡沫之源

VC如今都在偃旗息鼓了,此前清科集团创始人倪正东手上的一组数据显示,VC前三季度整体投资额下降了60-70%,VC募资下降了70%:同时PEhttp://www.aliyun.com/zixun/aggregation/39051.html">投资总额下降40%,募资下降70%.也许就像他说的那样:"VC/PE行业过去5年都没有像今年这样饱受压力." 经纬中国创始人张颖更是直言: 1)超过50%的投资机构会关门大吉 2)超过70%的行业人员会解甲归田,换行业 3)15%

大数据时代的神话--疑读《大数据时代》(一)

地球人都知道我们处在大数据时代,或许地球人也都知道关于大数据时代最著名的一本书就是迈尔-舍恩伯格所著的<大数据时代>. 我本以为大数据这么高深的学问绝不是我们这样的屌丝能够理解或者使用的,所以一直对此书敬而远之,不敢阅读.不料周边谈论大数据的人越来越多,谈论<大数据时代>这本书的人也越来越多,似乎不读<大数据时代>,估计连屌丝都做不成了.所以斗胆请来<大数据时代>.一读,果然不懂,许多疑问. 何为大数据? 这是一个很令人困惑并且绝对屌丝的问题,平时都不好意思

解读《大数据时代》:大数据时代的神话

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 地球人都知道我们处在大数据时代,或许地球人也都知道关于大数据时代最著名的一本书就是迈尔-舍恩伯格所著的<大数据时代>. 我本以为大数据这么高深的学问绝不是我们这样的屌丝能够理解或者使用的,所以一直对此书敬而远之,不敢阅读.不料周边谈论大数据的人越来越多,谈论<大数据时代>这本书的人也越来越多,似乎不读<大数据时代

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

免费开通大数据服务:https://www.aliyun.com/product/odps  想用阿里云数加·大数据计算服务(MaxCompute),但是现在数据还在hadoop上,怎么办? 大数据计算服务(MaxCompute) 快速.完全托管的TB/PB级数据仓库解决方案,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全. 了解更多   别烦恼,跟着我们走,来一次MaxCompute零基础数据迁移之旅-Let'

大数据对IT等市场的影响详解(上)

大数据正在改变许多公司和IT部门观察.存储和读取数据的方式.不过这个技术目前仍处在萌芽期中,而许多企业仍在寻找合适的平衡点. 随着成功的公司挖掘它们的数据以获得信息,让一系列看起来随机数字的信息变成利润增长点,大数据以及管理大数据的能力已经成为几乎每个行业的核心竞争力. 不过,"大数据"的真正含义是什么?是某种猜谜之类的东西吗?简单地说,大数据就是--公司范围内产生并进入公司的所有数据.大数据在不断增加中. IBM是这个新兴领域的领导厂商之一.它估计每天各种来源总共会产生2.5*109

如何在B/S架构的服务器端进行大数据量的串口通信, 并在客户端的浏览器上实时显示呢?(50分)

问题描述 现需开发一套B/S架构的软件系统,但在服务器端需要进行在数据量的串口通信,也就是说在服务器端需要通过串口向设备每秒就查询一次,由于设备较多,故数据量较大.并且要求,在客户端的浏览器上及时地显示最新的数据.想问:我如何架构这套软件系统呢?有人建议是串口通信及设备的管理使用VC编写成ActiveX控件或作成服务,然后在ASP中使用C#直接调用此ActiveX接口即可.这样可行吗?哪位能提供例子程序或告之哪里有例子程序吗?本人以前是C/C++程序员,对.net及网页这块不熟悉. 解决方案 解

王洪涛:大数据技术的最终目标是应用

文章讲的是王洪涛:大数据技术的最终目标是应用,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 王洪涛,中国保险大数据智慧应用的倡导者和实践者.博士.国家访问学者.历任某保险集团战略发展部.CRM部.某保险公司董办总经理.21年保险从业经历,领导完成了跨产寿险

国家教育部牵手曙光公司——“百校工程”助力教育行业大数据平台建设

5月14~15日,以"向互联网+与智能制造进军"为主题的第三届产教融合发展战略国际论坛在河南省驻马店市召开,教育部副部长朱之文.河南省副省长徐济超.教育部学校规划建设发展中心主任陈锋等出席了本届论坛. 会上,教育部与曙光信息产业股份有限公司签署了教育部产教融合项目合作协议,联合推出"数据中国-产教融合促进计划".此外,曙光公司副总裁沙超群还在论坛上发表了"数据中国建设方略与数据产业兴起"的主题演讲.  (曙光公司副总裁沙超群发表"数据中