最近,我们已经听到了太多关于“大数据”的东西,有很多
新的应用程序,关于Hadoop、NoSQL和各种新的分析软件。我最近花了很
多时间与人交谈和思考这些趋势,最终确信我们看到的巨大的变化,包括我们已经收集的数据,以及为个人、公司和社会,我们要如何处理这些数据。
组织应当如何处理数据,如何将原始数据转化成用于作出决定的信息,我们只是处在完整反思的早期阶段。不过,我也相信,“大数据”这个术语可能是混乱大于实用。数据分析的供应商MicroStrategy的首席技术官杰夫·比德尔(Jeff Bedell),告诉我,“大数据”只是一个时髦词语,“整个游戏是引入使人困惑的术语。”
例如,Gartner对大数据的描述不仅在于数据量,还包括其类型,速度和复杂性。分析师马克·拜尔(Mark Beyer)在去年秋天的有关极端信息管理研讨会发言,表示公司需要建立现代化的信息管理系统,该系统要包含合乎逻辑的数据仓库。
相比将“大数据”作为一个事物来谈论,考虑组织如何处理数据的各种变化可能更具现实意义。
当然,某些情况下,也有真正的大量数据。大型强子对撞机每年产生15 PB的数据(15,000 TB级),而即将到来的球面射电望远镜项目预计每天将产生数EB(一百万TB)的数据。但是,这些项目是比较少见的,更多与高性能计算相关,而非典型的商业案例。
相比之下,最典型的组织正在处理的数据库,规模显著较小,但仍然可以测量为TB和PB级。(这仍然是一个大量数据。)这些数据可以来自各种来源:跟踪人们在一个网站或多个网站上做什么,分析社会网络,或由传感器产生的数据处理。
在谈有关数据造成的结果在最近的改变之前,回顾一下到现在为止这个领域的一些大的趋势,可能会有所帮助。
数据库——数据的集合的历史,几乎与数字式计算机一样长,特别地,像IBM的大型机系统上运行的IMS产品。早期的数据库是分层的系统,但模型改变并成为标准仍然是关系模型。这些可追溯至1970年埃德加·F.科德(Edgar F. Codd)一篇题为《大型共享数据银行数据的关系模型》的论文。
今天,每一个大型组织仍在使用的一个或多个这些产品,来存储他们的交易数据,如Oracle数据库,IBM的DB2,微软SQL Server和开源的MySQL(现在仍然是Oracle拥有)。在关系数据库之上,已建成各种应用程序,包括库存,会计,企业资源计划(ERP),客户关系管理(CRM),人力资源应用,以及数以千计的大型组织定制应用程序。
特别是,作为交易的数量已变得更为复杂,往往分布在多个机器,许多企业已经实施联机事务处理系统(OLTP,也称为面向交易的处理系统)。
在过去几十年,一个大的变化,是商业智能平台和数据仓库的出现,通常但并不总是一起运行。
数据仓库通常存储来自业务系统的数据副本,但这些系统本身并不使用于不间断的业务经营。相反,它们被用于保持数据的历史,整合多个系统,往往作为分析应用的一个起点。Teradata公司的数据仓库产品可能是最有名的,但近年来,甲骨文的Exadata产品线(并购SUN所得),和IBM公司(包括其收购Netezza公司的资产)已经获得更多的重视,以及纯软件厂商,如Greenplum(现在是EMC的一部分)。
(责任编辑:蒙遗善)