再谈大数据的特征:感受数据之大

2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:量(Volume),即数据多少;速(Velocity),即资料输入、输出的速度;类(Variety),即多样性。

在莱尼的理论基础上,IBM提出大数据的4V特征?得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,速度(Velocity),即处理速度快;第四,真实性(Veracity),即追求高质量的数据。虽然不同学者、不同研究机构对大数据的定义不尽相同,但都广泛提及了这4个基本特征。

大容量

天文学和基因学是最早产生大数据变革的领域。2000年,斯隆数字巡天项目启动时,位于新墨西哥州的望远镜在短短几周内搜集到的数据已经比天文学历史上总共搜集的数据还要多;在智利的大型视场全景巡天望远镜一旦于2016年投入使用,其在5天之内搜集到的信息量将相当于前者10年的信息档案。2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15分钟就可以完成同样的工作量。

伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。移动互联网的核心网络节点是人,不再是网页。人人都成为数据制造者,短信、微博、照片、录像都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等;来自自动流程记录,刷卡机、收款机、电子不停车收费系统,互联网点击、电话拨号等设施以及各种办事流程登记等。大量自动或人工产生的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海。

我们周围到底有多少数据?数据量的增长速度有多快?许多人试图测量出一个确切的数字。

2011年,马丁·希尔伯特和普里西利亚·洛佩兹在《科学》上发表了一篇文章,对1986 ~2007年人类所创造、存储和传播的一切信息数量进行了追踪计算。其研究范围大约涵盖了60种模拟和数字技术:书籍、图画、信件、电子邮件、照片、音乐、视频(模拟和数字)、电子游戏、电话、汽车导航等。

据他们估算:2007年,人类大约存储了超过300EB的数据;1986~2007年,全球数据存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;预计到2013年,世界上存储的数据能达到约1.2ZB。

这样大的数据量意味着什么?据估算,如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果存储在只读光盘上,这些光盘可以堆成5堆,每堆都可以伸到月球。在公元前3世纪,希腊时代最著名的图书馆亚历山大图书馆竭力搜集了当时其所能搜集到的书写作品,可以代表当时世界上其所能搜集到的知识量。但当数字数据洪流席卷世界之后,每个人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。

本文作者:佚名

来源:51CTO

时间: 2024-09-13 06:42:02

再谈大数据的特征:感受数据之大的相关文章

再谈web开中几种经典的大文件上传组件

1.aspnetupload 这是国人开发的一款收费.net控件,官网http://www.aspnetupload.net/ (不过也有一个免费版本的,允许上传10M内容,一般情况下也够了,收费版也不贵,大致就600 RMB) 它的大概原理是把文件分成一块一块的上传,然后客户端用ajax不断刷新从而显示进度条. 这也是我使用时间最长的一种解决方案,在IIS7出现以前完全没有任何问题,但IIS7及以上版本中,如果用了这个控件,应用程序池就只能运行在"经典"模式下,无法充分发挥IIS7的

大数据,先推广应用再谈“共享”

大数据,既是各种类型的应用数据,也是一种观念和思维方式.如今,它正渗透到我们生活的方方面面,小至一个企业,大至一座城市,都在谈论大数据,也期待着借助大数据的应用,让企业更智能,让城市更智慧. 在近日召开的国际城市论坛"国家大数据战略和京津冀协同发展"分论坛上,清华大学大数据产业联合会常务副秘书长邱东晓指出,发展大数据将跨越两道鸿沟.从顺序上看,目前应先聚焦推广应用,跨越产业应用创新这第一道鸿沟,然后再谈数据共享,跨越数据联通共享创新这第二道鸿沟. 大数据之热 因为大数据,贵阳近年来赚足

再谈大数据行业里的两大误区

之前在虎嗅发了一篇文章<大数据行业里的两大误区>,很多朋友评价还不错,受此激励,结合最近目睹.经历的项目,想多写一些.经过笔者总结,发现大数据的误区还真是不少,尤其是国内,很多人以讹传讹,造成了很多基本概念的偏差.接上一篇文章,再来谈谈大数据中的一部分误区,供大家拍砖. 误区三:数据量特别大才叫大数据 在 "数据界"存在这样有一波人,他们认为"只有Peta级以上的才叫大数据,甚至到了Zeta以上才叫大数据,目前还没有到真正的大数据时代!",每次听到这样的

【干货】郭朝晖:工业大数据的特征、方法与价值创造

嘉宾介绍: 郭朝晖,现为宝钢中央研究院首席研究员.教授级高工.分别于1990.1994.1997年在浙江大学应用数学.化学工程和自动化专业获得学士.硕士和博士学位.1997年加盟宝钢,2005年晋升教授级高工.长期从事信息.模型.自动控制.大数据等领域的技术研发工作. 曾先后担任中国工业与应用数学学会副理事长,中国现场统计学会第八届理事会理事,上海工业与应用学会常务理事,上海人工智能学会理事,上海交大.浙江大学.宝钢人才开发院兼职教授,东北大学兼职博导,宝钢集团党外知识分子联谊会会长,上海市知联

再谈数据外泄和数据库安全

本文讲的是再谈数据外泄和数据库安全,2011年末国内最大程序员社区CSDN的数据库泄露事件横扫整个中国互联网,引起了亿万网民的关注.怀疑互联网的安全性, 似乎一夜之间数据外泄和数据库安全成为流行.其实不然,数据外泄从05年开始就在国外爆发,典型代表为美国的数千万信用卡数据失窃事件. 从历史上看,往往一个大的事件会引起人们的警醒,甚至一定程度会影响到法律法规的制订和全员对安全意识和手段的提高.面对此类安全事件,我们需要的不是过多的责难,而是不断改进的问题本,站在信息系统安全高度来看待这些层出不穷的

大数据是“啤酒+尿布”?解读“大”的三维特征

"大数据"这一概念最初起源于美国.这里的"大"通常用来描述数据的三维特征:第一维指信息的数据体量日益庞大:第二维指信息的种类繁多:第三维指数据变为可用信息,并且可以分析速度越来越快. 早在1969年,全球零售巨头沃尔玛便利用计算机对消费者的购物行为进行数据分析,结果发现男性顾客在购买婴儿尿布时,常常会顺便"搭配"几瓶啤酒来犒劳自己,于是推出了将啤酒与尿布捆绑销售的促销手段.如今,这一"啤酒+尿布"的数据分析成果,已成为科学家通

谈大数据:高效的数据存储、维护以及分析

"大数据"被认为是可以重塑现有数据中心的技术.诚然,数据中心听起来一点都不如iPad有趣,不过如果没有数据中心对云计算的支持,iPad至少不会像现在这么有趣.云计算不仅极大的延伸了移动互联网,同时正在成为一股冉冉升起的新时代的中坚力量,不断为商业终端注入活力.美国政府已经意识到了大数据的重要性,美国总统奥巴马甚至斥资2亿美元联邦财政预算用于大数据项目.无论是商务人士还是政府机构都在谈论大数据,仿佛这是一盏济世明灯,俨然在将经济发展的重任交付于大数据的肩上. 但且慢,这些对大数据如此推崇

大数据面临的挑战:当大数据遭遇云计算

本文讲的是大数据面临的挑战:当大数据遭遇云计算,据IDC的报告,未来十年全球大数据将增加50倍.仅在2011年,我们就将看到1.8ZB(也就是1.8万亿GB)的大数据创建产生.这相当于每位美国人每分钟写3条Tweet,而且还是不停地写2.6976万年.在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长. 毫无疑问,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算.数据仓库.数据挖掘.商业智能等应用的连锁反应.2011年企业会将更多的多TB(1TB=1000

大数据不止是统计数据那么简单!

统计无时不在,从结绳记事到今天的大数据,统计作为人们认识客观世界的工具,也在不断创新,统计学作为一门系统研究数据的学科,在不断丰富与完善.大数据时代来临,统计如何应对新的挑战与机遇?我们回顾历史,不忘初心,以开放的态度.创新的精神和不懈的努力,继续前进,让统计在大数据的舞台上,发挥更大的作用. 普遍的定义认为,统计学是关于数据的科学,研究如何收集数据,并科学地推断总体特征.普查作为最古老的数据收集方法,已经有数千年的历史,据记载,2200多年前的西汉时期,中国开展了第一次人口普查.17世纪中叶,

数据分析师的情怀,一个大数据工作者的感悟

前言:谈起大数据,知晓它的人,都会说,势头猛,高科技,待遇好.城外的人,迫不及待想一头扎进来.熟不知,城里的大部分人却在坐以待毙,茫然无方向,难产. 前段时间在上海,老罗举行Smartisan M1/1L发布会,基本每一次我都会听大半直播内容.很多人笑话老罗总拿情怀忽悠人,烦不烦(这次低调多了).我挺喜欢的,执着,尽心,快感和使命感.情怀这东西,每个人都会曾经拥有过,在大数据圈子里,我也有情怀.而把它写出来,共同分享,找到有共鸣的人,这也是一种欣慰,这也是这篇文章的初衷. 最近3个多月,一直围绕