一直以来,数据分析都在利用电子储存信息获益方面发挥着重要作用。一些组织利用数据分析解决方案提供可增加收入、提高市场份额、降低成本和取得科学突破的洞察。
如今,随着业务流程的日益自动化,数据分析的版图也在不断扩张。之前存储于独立在线和离线存储库中的各种格式的信息,现在都能以数字格式进行存储,随时进行合并和分析。因此,企业高管对数据的要求越来越高,期待更迅速、更有效的解决方案。组织也更加重视数据分析活动,这无疑给现有的业务分析师和 IT 团队带来更大的压力。
大数据的定义
从某种程度上说,大数据是数据分析的前沿技术。对“大数据 (Big Data)”这个术语的最早引用可追溯到 Apache.org 的开源项目 Nutch。大数据是指为更新网络搜索索引需要同时进行批量处理或分析的大量数据集,比如大小为数十到数百 TB 的博客。随着谷歌的关于 MapReduce 和 Google File System (GFS) 的发布(后者发展成了 Apache Hadoop 开源项目),大数据不再仅仅是指大量的数据,还涵盖了处理数据的速度。随着全新的、结构化的、非结构化和多结构化数据类型的出现,大数据还包含一个复杂性元素。
企业战略集团 (ESG) 发现,供应商理解的“大数据”只是字面上的意思,即大量的数据。这种趋势在提供某些解决方案的供应商中尤为明显,这些供应商提供了分布式并行文件系统(如 GPFS 和 Luster)、特定于工作负载的存储解决方案(如 EMCIsilon 和 Panasas)和专为复杂分析而设计的数据库(包括 Teradata 的 Aster、HP 的 Vertica、IBM的Netezza 和 EMC 的Greenplum)。如表 1 所示,ESG 更新了大数据的定义来反映当前使用情况。
大数据是指超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
表1. 大数据的定义
评估大数据对数据分析的影响
ESG 认为大数据不是市场炒作。对于许多跨多个垂直行业的组织而言,大数据是真实存在的,而且它正在改变数据中心的架构。随着数据量,数据处理速度和数据类型的复杂度以远超标准前端和后台数据处理能力的速度增长,大数据在不断增长,这迫使 IT 团队考虑采用非常规的方式处理业务需求。
在缓解提高绩效的压力的同时,如何利用当前的分析平台和基础 IT 架构处理不断增长的数据量?这是很多组织都在尝试解决的问题。为更好的理解组织如何应对大数据带来的挑战,以及他们想通过部署新的分析平台来满足大数据需求并从中获得哪些利益,ESG 近期针对 270 位决策者和影响者展开了一项调查。(调查结果如下)
据 ESG 的调查结果显示,如果一些组织拥有大量的数据和不断增长的数据库容量,而且这些数据源自多个来源,那么他们面临大数据挑战的可能性就更高。随着越来越多的数据源集成到业务智能和数据处理任务中,通常的数据分析流程已经无法满足需求。这些组织认识到,提高数据分析能力同样非常重要。
超过半数的调查对象将提高数据分析能力列为未来 12-18 个月内最重要的五个 IT 优先考虑事项之一(参见表 2)。另外,只有 5% 的人认为数据分析不是他们最重要的 20 个 IT 优先考虑事项之一。超过半数 (54%) 的企业(雇员超过 1000 人)认为数据分析是最重要的五大 IT 优先考虑事项之一,而只有 42% 的大中型企业(雇员为 500-999 人)持这样的观点。
表2. 数据分析的相对重要性
目前,主导的数据分析平台尚未出现。半数以上的组织仍在使用自定义数据分析解决方案。通用数据库针对特定工作负载进行了调优,也被广泛用于执行数据分析活动。至少需处理 100 TB 数据的组织更倾向使用基于云的数据分析服务,以及大规模并行处理 (MPP) 或对称处理 (SMP) 分析数据库。尽管早几年就已经出现特定于工作负载的设备(即将分析数据库与软件、存储、服务器和网络资源绑定在一起),但是只有 6% 的组织将这些解决方案当作其主要的数据分析平台。这个比例之所以这么小,主要是因为供应商可以选择的设备有限,而且这个局限性在未来 12-18 个月内会一直存在。调查结果表明,组织一直在挑战其分析平台的极限,同时也在努力寻找更好的架构,以便更好地完成日益增长的数据分析任务。
数据集成是最常见的数据分析挑战,超过三分之一 (39%) 的调查对象认为数据集成过程太费时,数据量太大 (35%),或两种情况同时存在。随着企业数据集成的数据来源的增多,这些问题也会变得更加严重。