近几年来,大数据一直是公共领域的一个热词,但其根源其实早已深植于整部IT发展史中。回溯过去30年,我们就会发现一些在影响着我们收集、管理和分析数据的关键事件,这些事件有助于解释为何大数据今天会如此热门的原因。
□1983
IBM发布最新的关系数据库管理系统DB2,使用结构化查询语言,很快成为政府部门的主流产品。
□1985
面向编程(OOP)语言,如Eiffel开始流行。
□1990
用于互联网搜索的首个搜索工具Archie诞生。
□1991
万维网(World Wide Web)利用超文本传输协议(HTTP)和超文本标记语言(HTML)逐渐成为信息共享的公共服务。
而Gopher作为互联网上分布、搜索和提取文档的TCP/IP应用层协议,可以说是早期Web的一个替代品。Gopher的出现导致了两个新的搜索程序,即Veronica和Jughead的出现。
1993
W3CCatalog发布,它是万维网上最早出现的搜索引擎。
□1995
Sun发表Java平台,而Java语言则是1991年发明的。该平台在数据治理方面获得最广泛使用,在Web应用中尤其普及,逐渐取代了面对面的和书面的事务。
1972年开始运行的全球定位系统(GPS)这一年实现了全球运营能力。
□1997
NASA阿姆斯研究中心的Michael Cox和David Ellsworth发表了一篇论述虚拟化的论文,探讨了计算资源无法即时处理的过大数据集的挑战。该论文写道:“我们称这一问题为大数据问题,”这可能是首次提出大数据这一术语。
□1998
Carlo Strozzi开发出一个开源关系数据库,并称其为NoSQL。十年后,一场开发NoSQL数据库以处理大型、非结构化数据集的运动开始启动。
谷歌公司诞生。
□2001
万维网发明人Tim Berners-Lee提出“语义Web”这一术语,梦想着机器与机器交互“会让在Web上分析所有数据成为可能。”
维基百科发布。
□2002
2001年9月11日,纽约遭受恐怖袭击。DARPA开始研制整体情报识别系统,综合了生物识别、语言处理、预测模型和数据库技术,是美国众多情报机构所进行的新型数据采集和分析努力之一。
□2003
根据IDC和EMC的研究,电脑和其他数据系统在这一年中所产生的数字信息量超过了2003年之前历史上全人类所产生的信息总量。
□2005
Apache Hadoop项目这一年诞生,它注定要成为治理大数据的基础。
美国国家科学基金会建议为“足够多的高质量数据科学家”创建职业路径,这些科学家主要处理日益增长的数字信息集合。
□2008
连接到互联网上的设备数量超过了世界人口总量。
□2011
IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目“Jeopardy”上击败两名人类选手而夺冠。
用于NoSQL数据库的查询语言UnQL开始研发。
□2012
奥巴马政府发布大数据研发倡议,该倡议涉及美国政府的六个部门的84项计划。美国国家基金会同时发布了《推进大数据科学和工程的核心方法及技术》。
IDC和EMC估计,2012年将产生2.8ZB的数据,但其中只有3%能够当做大数据来使用,能分析的数据量则更少。该报告预计,到2020年的数字世界将拥有40ZB的容量,是全世界所有海滩全部沙粒数的57倍!