魔法师与麻瓜,只隔一个大数据的距离

魔法师与麻瓜,只隔一个大数据的距离

“大数据”,一个风靡全球的热词。

在中国,“大数据”的背后,除了技术手段和行业的崛起,与其他诸多被热炒的概念一样,泡沫感十足。对此,电子科技大学大数据研究中心主任周涛在接受时代周报记者采访时形象地举例说:“现在,任何一个能够打开excel表格的公司,都号称自己是一家大数据企业。”

到底什么是大数据企业?一千个读者有一千个哈姆雷特。

在周涛的新书《为数据而生:大数据创新实践》中,也没有给出具体的定义。他只列举了或正或反的例子。“中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中”—这是反例;相比之下,Google和阿里巴巴更像大数据企业,除了具有处理大量数据的能力外,“他们有深入的数据分析工具,并会利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用”。

很多人知道周涛,是从《大数据时代》开始的。这本数年前风靡全球的大数据系统研究先河之作,其中文版的译者就是周涛。2016年1月,周涛和彼时刚刚获得诺贝尔奖的屠呦呦一起,入选“2015年度十大科技创新人物”。颁奖词提到,周涛在大数据挖掘与分析特别是网络数据的挖掘与分析方面,作出了系统性的贡献。

翻译完《大数据时代》之后,2013年起,周涛开始为《为数据而生》的撰写作准备。此间历经三年,大数据在全球范围内的应用出现了新的形式。与《大数据时代》相比,《为数据而生》更着力于介绍大数据领域的创新方法,包含了大量鲜活的大数据企业相应的商业模式和具体创新案例。

在大数据探索方面,中国的优势很明显,即数据的体量庞大。根据中国互联网信息中心发布的《中国互联网络发展状况统计报告》,截至2015年12月,中国网民规模达6.88亿,互联网普及率为50.3%,手机网民规模达6.2亿—美国的网民数量只有约2.8亿。“大数据之父”、《大数据时代》作者维克托·迈尔-舍恩伯格在上月接受《环球时报》采访时指出,“中国和部分西方国家,比如欧洲国家或者加拿大、澳大利亚相比,已经做得很好了。现在世界各国在探索大数据方面都还处于比较早期的阶段,这对于中国而言,也是一个非常好的机会。”事实上,随着百度、阿里巴巴、腾讯等国内互联网巨头公司在数据搜集方面的优势放大,这些公司正逐步开启国内的大数据应用,并各自在相应的“大数据”战略上下足了功夫。

但周涛认为,中国距离“大数据时代”还有很远的路要走。“我们目前并未形成有重大社会经济价值的大数据应用产品,并未实质性推动大数据相关传统产业的转型升级,并未为国家重大战略提供有重要价值的决策建议。”

在国内,目前,80%的数据由政府掌握,而私人公司之间的数据分享也非常有限。此外,在数据搜集方面,中国仍面临技术难题。“在中国,一些公司成长的速度非常快,但它们过于关注自身成长,并没有投入到搜集数据的基础设施建设当中。”舍恩伯格如此表述。

忽视大数据发展的国家将很难面对下一个时代的生存和发展。据国际数据公司预测,未来三年内,全球范围内“大数据”和商业分析等相关行业收入将增长到1870亿美元以上。IBM指出,全球每天有2.5万兆字节的数据添加到其日常的数据池里。这些数据来源各不相同,从天气监测传感器、社交媒体网站到数字图像和视频、在线交易以及移动电话……

“在下一个时代,自动化、定量化和个性化会成为主要的特征……拥有大数据的理念,能够掌握数据和运用数据的人,就是下一个时代的魔法师,反之,你就成了麻瓜!”在《为数据而生》的序言中,周涛写道,“即便你不能掌握一项特定的数据技术,了解大数据的理念、培养大数据的思维模式,也是非常重要的—不管你从事什么工作。”

阿里,真正的大数据企业

时代周报:你翻译过《大数据时代》,现在自己又写了一本关于大数据的书。《为数据而生》在观点上与《大数据时代》有什么区别或特点吗?

周涛:《大数据时代》一书,主要是介绍“大数据”本身与曾经的数据分析、数据统计有什么理念上的区别。在书里,舍恩伯格提出了“更多关注关联而非因果”“全体数据分析取代抽样分析”“使用模糊数据而非精准数据”等观点。而我的这本《为数据而生》一书,没有着力讲大数据概念,在介绍了大数据发展的主要驱动力之后,把叙述的重点放在了大数据领域中层次递进的创新方法上,并将其分为分析、外化和集成的三个阶段,并对各阶段相应的商业模式以及具体的创新案例进行了阐述和分析。

时代周报:什么才是真正的大数据企业?你列举了阿里和谷歌作为正面榜样。阿里在大数据方面的优势在什么地方?

周涛:阿里在大数据方面的优势有三点:它的业务产生了大量的数据;它自身具有非常强的数据存储、分析和应用的能力;它的数据分析结果可以直接应用于自身业务,所以有很畅通的数据变现的渠道。

对于很多希望成为大数据的企业而言,这三个优势应该是具有普适的启发意义的。

时代周报:建设大数据创新工厂是你的一个设想。这一设想在目前实现的可能性有多大?主要障碍在什么地方?

周涛:具体的可能性有多少,很难量化,但是我感觉非常困难。事实上,如《为数据而生》一书中所述,我们已经开发了icloudunion这个以“开放数据挖掘能力,降低将数据转化为价值的技术门槛”为使命的平台,但是这离我所希望的大数据创新工厂还很远。我觉得目前最大的障碍是,一般的企业,缺乏将业务上遇到的大问题剖析分割成几个主要数据挖掘问题的能力,这使得针对不同企业的数据挖掘服务,定制化程度非常高。反过来来说,企业也没有办法通过创新工厂提供的一些标准化服务来解决自己的问题。

大数据将颠覆哪些行业?

时代周报:在书中,你认为大数据对科技尤其是半定量的科学改变巨大。为什么这么说?

周涛:社会学、管理学、心理学等,是我所认为的半定量的学科。这些学科的一些理论是基于定性的分析,没有数量化的支持,因此严格来说不算科学的范畴。另外,一些定量化的结果,往往也是通过对少量的案例分析或针对一小部分人(往往是几十人到几百人)进行问卷调查、量表填写或行为实验得来的,这些其实都是“小数据”。

现在,我们利用大数据的方法,可以在不干预个人生活工作的前提下,获得数千万甚至数亿人的真实行为数据,这些数据的分析,可以验证或者证伪很多已知的经验理论,并且从根本上改变原来这些半定量学科方向的研究思路和研究方法。事实上,最近国际上已经有一些学者(中国也是其中一支不可小觑的力量)开始提出计算社会科学的理念和方法论。

时代周报:未来,哪些传统行业被大数据改变的机会较大?

周涛:我认为是工业—主要是指制造业,还有农业、医疗健康及生物行业。

时代周报:你在书中详解列举了成为大数据企业的措施,在这八个步骤中,哪一步是目前中国企业最缺失或薄弱的?

周涛:大部分企业,八个步骤都缺失。其中,第二步“整理数据资源,建立数据标准,形成管理规范”和第七步“推动自身数据的开放与共享”最为关键。因为只有数据流通起来,才能产生价值,第二步和第七步就是制约因素。这两步解决了,解决其他问题的动力就会自动出现了。

时代周报:有观点认为,我们身边每天都会产生大量数据,但是目前缺乏强大的IT技术基础作为支撑,将这些数据有效收集起来,并加以“净化”和有效利用。你同意这个观点吗?

周涛:我同意这个说法。我认为中国现在还没有进入到所谓的“大数据时代”。事实上,迄今为止,总体上来说,中国并未形成有重大社会经济价值的大数据应用产品,并未实质性推动大数据相关传统产业的转型升级,并未为国家重大战略提供有重要价值的决策建议。这里主要的障碍,是大数据创新的四个关键要素即“核心需求”“原始数据”“关键技术”“顶尖人才”互相分离。
本文转自d1net(转载)

时间: 2024-11-02 10:48:06

魔法师与麻瓜,只隔一个大数据的距离的相关文章

电视台成阿里云下一个大数据重塑目标

本文讲的是电视台成阿里云下一个大数据重塑目标[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台.该平台可以在一周内,帮助传统电视台变成多屏网络电视台,支持电脑网站.手机APP.电视机全终端流畅播放,且可以实现大数据的收集整理和运营.今年内,全国两百家电视台将接入该云计算平台. 阿里云是中国唯一可以将5000台计算机合成一台"超级计算机"的云计算平台,将为全国广播电视媒体提供超级计算.

和实物只隔一个屏幕!华硕灵焕3Pro VR体验

VR游戏凭借其强烈沉浸感和深度交互性受到了许多用户的追捧,游戏主机和VR头盔也成为VR游戏必备的两件"法宝".让人意想不到的是,一些二合一笔记本竟也能玩转VR.华硕新品灵焕3Pro能够通过ROG XG Station 2扩展坞外接高端显卡,支持4K游戏或VR体验.灵焕3Pro还拥有薄约8.35mm的超薄机身,能够在平板和笔记本之间随心切换,是一款集出色性能和非凡便捷于一身的二合一笔记本电脑.另外,灵焕3Pro还预装价值749元的office 家庭和学生版2016,激活后可长期使用. 畅

一个大数据应用是如何炼成的

经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示. 课题是怎么来的? 大数据应用最大的挑战,就是未来的不确定性,因此,传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的. 做大数据几年,虽然说现在靠谱的大数据的商业模式也就在广告.金融.公益等方面,但真要下决心干某个大数据应用项目,其突发性.偶然性也非常强,因为对于大数据这个不成熟事物,无论是哪类公司

一个大数据应用是如何炼成的?

经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示. 课题是怎么来的? 大数据应用最大的挑战,就是未来的不确定性,因此,传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的. 做大数据几年,虽然说现在靠谱的大数据的商业模式也就在广告.金融.公益等方面,但真要下决心干某个大数据应用项目,其突发性.偶然性也非常强,因为对于大数据这个不成熟事物,无论是哪类公司

关于一个大数据量的查找算法

问题描述 关于一个大数据量的查找算法 如果有一到一亿个数乱序排列,可以操作最后一个位置前面的所有数,问怎么才能最快知道最后一个位置的数是多少? 解决方案 就是遍历读取排列中的数据,以数据作为数组的下标,同时给这个数组元素赋值为1.这样把排列中倒数第二个以前所有数据过一遍. 最后把数组再遍历一次,看那个元素值为0,它的下标就是排列最后一个. 解决方案二: 开一个100000000元素的数组arr,遍历数字,如果一个数字是123,那么就让arr[123]加1,以此类推. 相当于基数排序. 解决方案三

当一个大数据团队加入存储公司之后会发生什么?

  近几年来,大数据技术在中国得到了很快的发展,并逐渐在各大企业落地.大数据解决方案的根基是大数据量,如何将这些数据有效地利用起来成为用户和厂商急需解决的一大课题. 罗忠富-现任柏科数据技术(深圳)股份有限公司大数据事业部首席架构师.曾任职于Teradata.当当网.Oracle.联通研究院,参与或主导过中国网通决策分析系统.中国移动集团经营分析系统.当当网数据仓库.宏源证券大数据平台.新华社大数据平台等多项重大项目.而其所在团队,也已经有将近十年BI.数据挖掘.大数据分析的经验与积累,拥有基于

数据分析师的情怀,一个大数据工作者的感悟

前言:谈起大数据,知晓它的人,都会说,势头猛,高科技,待遇好.城外的人,迫不及待想一头扎进来.熟不知,城里的大部分人却在坐以待毙,茫然无方向,难产. 前段时间在上海,老罗举行Smartisan M1/1L发布会,基本每一次我都会听大半直播内容.很多人笑话老罗总拿情怀忽悠人,烦不烦(这次低调多了).我挺喜欢的,执着,尽心,快感和使命感.情怀这东西,每个人都会曾经拥有过,在大数据圈子里,我也有情怀.而把它写出来,共同分享,找到有共鸣的人,这也是一种欣慰,这也是这篇文章的初衷. 最近3个多月,一直围绕

开发一个大数据应用程序来执行数据探查和发现

探查大数据和传统企业数据是许多组织的共同需求.在本文中,我们概述了为通过基于 Hadoop 的平台管理的大数据建立索引的方法和指南,以便将这些数据用于数据发现解决方案.具体来讲,我们将介绍如何将存储在 IBM 的 InfoSphere BigInsights(一个基于 Hadoop 的平台)中的数据推送到 InfoSphere Data Explorer.InfoSphere Data Explorer 是一个复杂的工具,支持业务用户探查并组合来自多个企业和外部数据源的数据. 简介 如果您关注过

一个摄影师的大数据项目

Rick Smolan是著名的摄影师和出版人,曾担任<国家地理>杂志.<时代>杂志.<生活>杂志 Newsweek(新闻周刊)>和<U.S. News & World Report(美国新闻与世界报道)>以及<财富>杂志摄影师,也曾经多次出现在TED和TEDx舞台上,这是他在2007年TED讲述一个难忘的故事:一个韩国美军遗留的混血小女孩儿,一张宿命般的照片和一段跌宕的领养传奇. 他录制有[Creative Inspirations