1.2 大数据如何发掘价值
提取出有价值的信息总是说起来容易,做起来难。从理念、技术到实践操作,任何一个环节都对我们发掘大数据的内在价值提出了挑战。
我们可以通过四个维度来思考大数据,这四个维度的内容如下:
1)体量(Volume)。大数据的数据规模很大。企业里处处充满数据,很容易积累起兆级乃至PB级的数据信息。
2)种类(Variety)。除了结构化数据,大数据还包含各种各样的非结构化数据,如文本、音频、视频、点击流量、日志文件等。
3)真实(Veracity)。从大数据整合而来的大量数据信息会存在一定的统计误差和对信息的曲解。信息的精确性对其价值至关重要。
4)速度(Velocity)。大数据对于时间是很敏感的,因为在企业中数据是时时流动的,必须使用大数据才能最大化它的商业价值,但是从中得出的结论也必须要适合于企业的历史数据才行。
4V从四个维度诠释了大数据的价值。然而,大数据的复杂性并不仅限于以上四个维度。在大数据驱动过程中,还存在其他的影响要素。而这一过程是大数据技术和分析的混合物,它们被用于定义数据资源的价值,而这种价值又可以转化成驱动商业进步的可操作元素。
这里提及的许多技术和概念并不新奇,而是在大数据的理念下“重新”出现的。最好的办法是划分成类别再进行分析,这些技术和概念包括以下内容。
传统的商务智能(BI)领域。它包括广泛的商业应用程序以及对数据进行收集、存储、分析和处理的技术。而且BI提供可操作的信息,它们使用基于事实的支持系统来做出更好的商务决策。BI通过对来自数据库、应用程序以及其他数据资源的数据进行深度分析而推动其运行。在一些领域中,BI能够提供业务运营的历史、当前和预测性视图。
数据挖掘领域。这是一个从不同角度分析数据并从中挖掘有用信息的过程。数据挖掘通常适用于静态数据或历史数据。它更关注于预测目的的建模和知识发现,而不是单纯的数据描述,其目的在于从大规模数据集中发现新模型。
统计应用程序。这些程序关注以统计原理为基础的算法,而且通常应用于与民意调查、人口普查相关的数据集以及其他的静态数据集。这些程序处理的数据理论上以样本观测值为主,用来进行评估、检测和预测分析。经验数据如调查和实验报告的数据是可分析信息的主要来源。
预测分析。预测分析是数据统计程序中的一类,它主要是对数据库中的信息和趋势进行分析,从而得到预测结论。在金融和科学领域中预测分析尤为重要,一旦有外部因素加入数据集中,就需要进行新的预测。预测分析的一个主要目的在于识别商业运作、市场和制造业中的风险与机遇。
数据建模。它是一种假设性的分析应用,其中嵌套着多重的“what-if”语句,通过算法被应用于多个数据集。理想条件下,建模信息的变动应基于对算法可用的信息,提出对数据集变化的影响的分析。数据建模与数据可视化紧密相依,数据可视化可以更直观地展示数据。
数据管理(Data Management)。数据管理是指利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用,包括元数据管理、数据结构化、数据安全等内容。
数据工程(Data Engineering)。数据工程是关于数据生产和数据使用的信息系统工程。数据工程建立在大数据背景之下,是对数据库的建设与管理的工程,其主要内容包括数据资产积累、数据运营过程、数据处理结果和应用、数据时间和咨询等。
数据科学(Data Science)是研究数据的科学。数据科学利用统计学知识和计算机技术对专业领域的对象实行大数据分析与挖掘以及其他方式的数据处理,以使组织获取更大的经济效益。数据科学是一个交叉学科,在思想方法上,数据科学研究继承了统计学的一些思想,例如在大量数据上做统计性的搜索、比较、聚类或分类等分析归纳,其结论是一种相关性,而并不一定是某种因果关系。虽然都依赖大量的计算,但数据科学与计算机模拟不同,它并非是基于一个已知的数学模型,而是用大量数据的相关性取代了因果关系以及严格的理论和模型,并基于这些相关性获得新的“知识”。
以上分析仅仅是大数据先进性和商业价值的一部分。这种价值的存在有赖于人们对竞争优势的永无止境的追求,并鼓励企业组织采用更大的数据存储库,容纳组织内部和外部的数据,以更好地进行趋势揭示、数据统计、行动决策。这有助于将大数据的概念、相关工具、平台和分析普及到技术专家和高管中。