世上本没有数:正解大数据

招商银行前行长马蔚华推荐:“涂子沛先生的《数据之巅》通过追溯梳理美国的数据历史、展望人类的数据未来 ,给中国社会提出了一个数据时代的新命题——如何构建数据文化?本书引人入胜、发人深思,是不可不读的好书。”。

节标题"世上本没有数:正解大数据"

传统意义上的“数据”,是指“有根据的数字”,数字之所以产生,是因为人类在实践中发现,仅仅用语言、文字和图形来描述这个世界是不精确的,也是远远不够的。例如,有人问“姚明有多高”,如果回答说“很高”、“非常高”、“最高”,别人听了,只能得到一个抽象的印象,因为每个人对“很”、“非常”有不同的理解,“最”也是相对的,但如果回答说“2.26米”,就一清二楚。除了描述世界,数据还是我们改造世界的重要工具。人类的一切生产、交换活动,可以说都是以数据为基础展开的,例如度量衡、货币的背后都是数据,它们的发明和出现,都极大地推动了人类文明的进步。

数据最早来源于测量,所谓“有根据的数字”,是指数据是对客观世界测量结果的记录,而不是随意产生的。测量是从古至今科学研究最主要的手段,可以说,没有测量,就没有科学;也可以说,一切科学的本质都是测量。就此而言,数据之于科学的重要性,就像语言之于文学、音符之于音乐、形色之于美术一样,离开数据,就没有科学可言。

除了测量,新数据还可以由老数据经计算衍生而来。测量和计算都是人为的,也就是说,世上本没有数,一切数据都是人为的产物。我们说的“原始数据”,并不是“原始森林”这个意义上的“原始”,原始森林是指天然就存在的,而原始数据仅仅是指第一手的、没有经过人为修改的数据。

传统意义上的数据,和信息、知识也是完全不同的概念:数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息。

但进入信息时代之后,“数据”二字的内涵开始扩大:不仅指代“有根据的数字”,还统指一切保存在电脑中的信息,包括文本、图片、视频等。其中的原因是,20世纪60年代软件科学取得了巨大进步、发明了数据库,此后,数字、文本、图片都不加区分地保存在电脑的数据库中,数据也逐渐成为“数字、文本、图片、视频”等的统称,也即“信息”的代名词。

文本、音频、视频本身就已经是信息,而且其来源也不是对世界的测量,而是对世界的一种记录,所以信息时代的数据又多了一个来源:记录。

注:进入信息时代之后,数据成为信息的代名词,两者可以交替使用。一封邮件虽然包含很多条信息,但从技术的角度出发,可能还是“一个数据”,就此而言,现代意义上的数据的范畴,其实比信息还大。

除了内涵的扩大,数据库发明之后,还出现了另外一个重要现象,那就是数据的总量在不断增加,而且增加的速度不断加快。

20世纪80年代,美国就有人提出了“大数据”的概念。这个时候,其实还没有进入数据大爆炸的时代,但有人预见到,随着信息技术的进步,软件的重要性将下降,数据的重要性将上升,因此提出“大数据”的概念。这时候的“大”,如“大人物”和“大转折”之“大”,主要指价值上的重要性;到了21世纪前10年,尤其是2004年社交媒体产生之后,数据开始爆炸,大数据的提法又重新进入大众的视野并获得了更大的关注。这个时候的“大”,含义也更加丰富了:一是指容量大,二是指价值大。

从这个角度出发,大数据可以首先理解为传统的小数据加上现代的“大记录”,这种大记录的主要表现形式是文本、图片、音频、视频等,和传统的测量完全是两回事。而且大数据之所以“大”,主要是“大记录”的增长,基于信息技术的进步,人类记录的范围在不断扩大:

大数据=传统的小数据(源于测量)+现代的大记录(源于记录)

但到底多大才算大呢?针对这一问题,十多年来争议颇多。这首先涉及衡量数据大小的单位,2000年的时候,一般认为,“太”(T)级别的数据就是大数据了,当时拥有“太”级别数据的企业并不多,但自此之后,互联网企业开始崛起,这些企业拥有各种各样的数据,其中大部分都是文本、图片和视频,其数据量之大,传统企业根本无法望其项背。

我认为,不仅仅是互联网行业,其实各行各业的数据都在爆炸,只是规模不同。如果仅仅把大数据的标准限定在互联网企业,认为只有互联网企业才拥有大数据,那就严重窄化了大数据的意义。毕竟容量只是表象,价值才是本质,而且大容量并不一定代表大价值,大数据的真正意义还在于大价值,价值主要是通过数据的整合、分析和开放而获得。大数据是指人类有前所未有的能力来使用海量的数据,在其中发现新知识、创造新价值,从而为社会带来“大知识”、“大科技”、“大利润”和“大智能”等发展机遇。

以上论述,是从概念上分析“数据”和“大数据”的区别,而掌握一个概念最好的方法,还是从动态上了解其成因。大数据的成因,还是人类信息技术的进步,而且是信息技术领域不同时期多个进步交互作用的结果,其中最重要的原因,当数摩尔定律。

时间: 2024-10-26 18:48:47

世上本没有数:正解大数据的相关文章

工信部正制定大数据产业十三五发展规划

文章讲的是工信部正制定大数据产业十三五发展规划,北京9月10日电工信部信息化和软件服务业司司长陈伟10日在接受记者采访时说,工信部正在制定<大数据产业"十三五"发展规划>,支持大数据技术和产业创新发展,提升大产业支撑能力,培育新业态新模式. 近日,国务院印发<促进大数据发展行动纲要>,这为我国大数据发展进行了顶层设计和统筹部署,工信部主要负责大数据产业发展以及应用示范相关工作.陈伟说,除制定<大数据产业"十三五"发展规划>外,工信

IDC:中国金融行业正步入大数据时代初级阶段

3月25日,IDC研究显示,当前,数据是重要资产的理念已经在中国金融行业形成共识,数据的真正价值在于能够洞察企业内部规律,数据的洞察力成为金融企业的核心竞争力.在中国金融行业信息化建设中,与信息加工密切相关的大数据管理正逐渐成为与核心业务系统建设.渠道建设和前置建设同等重要的领域. 经过多年的发展与积累,目前中国的大型商业银行和保险公司的数据量已经达到100TB以上级别,并且非结构化数据量在迅速增长.基于IDC对大数据的定义(通常数据量大于100TB, 数据量年增率大于60%,数据采集是高速数据

阿里巴巴王坚:没有云的话,大数据就是个作坊

王坚,阿里巴巴最富争议性的人物之一,爱者极爱,恨者极恨. 5月12日,我和MTC的朋友,在杭州发起并主持了一场关于云计算的沙龙,虾米的思践聊了云音乐,快的打车陈伟星聊了云时代的产品设计,短趣网王强宇聊了云时代的创业,当然少不了王坚聊一聊他对云计算的看法. 当天,青龙老贼发了一段王坚的部分观点,遭遇了他开通微信公众号以来最强烈的退粉,也激起了圈内人的各种讨论,这就是王坚的"影响力". 我把王坚的分享做了个详细版的梳理,里面涉及了阿里云的定位.对大数据的反思.对APP创新的不看好,信息量很

王坚:没有云的话,大数据就是个作坊

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 王坚,阿里巴巴最富争议性的人物之一,爱者极爱,恨者极恨. 5月12日,我和MTC的朋友,在杭州发起并主持了一场关于云计算的沙龙,虾米的思践聊了云音乐,快的打车陈伟星聊了云时代的产品设计,短趣网王强宇聊了云时代的创业,当然少不了王坚聊一聊他对云计算的看法. 当天,青龙老贼发了一段王坚的部分观点,遭遇了他开通微信公众号以来最强烈的退粉,也激起了圈

详解大数据存储:哪些问题最容易出现

"大数据" 通常指的是那些数量巨大.难于收集.处理.分析的数据集,亦指那些在传统基础设施中长期保存的数据.这里的"大"有几层含义,它可以形容组织的大小,而更重要的是,它界定了企业中IT基础设施的规模.业内对大数据应用寄予了无限的期望 商业信息积累的越多价值也越大 只不过我们需要一个方法把这些价值挖掘出来. 也许人们对大数据的印象主要从存储容量的廉价性而来,但实际上,企业每天都在创造大量的数据,而且越来越多,而人们正在努力的从浩如烟海的数据中寻觅有价值的商业情报.另一

工程造价行业正处大数据时代

ZDNET至顶网CIO与应用频道 01月27日 行业新闻: 大数据是继云计算.物联网之后IT产业又一次颠覆性的技术变革.云计算主要为数据资产提供了存储.访问的空间和渠道,而数据才是真正有价值的资产.建筑工程造价行业云计算紧紧结合大数据,将数据利益最大化是企业的发展根本. 众所周知,数据和人才是企业仅有的两笔无法被竞争对手复制的财富.在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势.数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中. 首先我们

工信部正制定大数据产业“十三五”规划

工信部信息化和软件服务业司司长陈伟10日在接受记者采访时说,工信部正在制定<大数据产业"十三五"发展规划>,支持大数据技术和产业创新发展,提升大产业支撑能力,培育新业态新模式. 近日,国务院印发<促进大数据发展行动纲要>,这为我国大数据发展进行了顶层设计和统筹部署,工信部主要负责大数据产业发展以及应用示范相关工作.陈伟说,除制定<大数据产业"十三五"发展规划>外,工信部还将出台促进大数据产业发展的推进计划,促进规划.标准.技术.产

全球近50%运营商正部署大数据

本报讯 电信与媒体http://www.aliyun.com/zixun/aggregation/8934.html">市场调研公司Informa Telecoms & Media对全球范围内的120家运营商进行调查后指出,48%的运营商正在实施大数据业务. Informa称,大数据业务成本平均占到运营商总IT预算的10%,并且在未来五年内将升至23%左右,成为运营商的一项战略性优势.接受调查的运营商中有58%认为,大数据技术的长期发展将促生新的商业模式:短期而言,大数据的实施更多

企业正利用大数据了解员工健康状况

现如今,不少企业对于不断升高的医疗保健费用显得忧心忡忡,而他们有不少都开始寻求健康公司的帮助.健康数据公司一般是为保险公司来收集数据并预测员工可能会碰到的状况,但一些公司在此基础上更进了一步,会对更多的相关数据进行参考,比如员工们的购物地点,或他们是否参加了中期选举投票. 与这类公司保持合作的企业表示,他们使用了数据来帮助员工获得一个更加健康的生活方式,并找到了花费更低的选择.被认为存在健康风险的员工可能会收到由合作健康数据公司直接发来的电子邮件,当中会包含健康建议.医生推荐和替代治疗选择.如果