如果您希望将数据集汇总到从前在同类数据库中无法共存的 ">Apache Hadoop 集群中,如果您期望在它们之间构建统一视图,那么您可能会感觉如梦初醒。当开始处理过去一直未充分利用的信息源时,质量问题并不少见。
在探讨未充分利用的数据时,质量问题可能会成为满是肮脏之物的老鼠窝,几乎是在浪费精力预测无法预料的问题。例如,几年前,我们开展了一项复杂8206.html">系统可用性预测分析项目,发现提供作为参考的系统数据非常容易变异,并且与规范中所述的特征截然不同。“标准”绝非仅仅是“建议”。在这种情况下,您需要追溯并处理核心系统数据生成,或者解决这些质量问题。这是一种相当普遍的现象,因为依据定义,当您处理未充分利用的信息来源时,这些来源很可能是首次投入严格使用。
当您合并结构化数据与新出现的大量非结构化来源时,这个问题的复杂性将上升到一个新的高度(这一点几乎毋庸置疑),据官方记录,该问题极少得到妥善管理。事实上,在处理非结构化信息(它是最重要的新型大数据来源)时,预计该数据会模糊失真、前后矛盾和嘈杂混乱。越来越多的大数据源开始提供非事务性数据(包括事件、地理空间、行为、点击流、社交和传感器等),模糊失真和嘈杂混乱是这些数据的本质特征。通过单一系统为此类数据的处理操作建立官方标准和共享方法是一个不错的想法。
大数据可能具有更多的质量问题,只是因为其数据量更大
当探讨大数据时,通常会提及量大、速度快和品种多。当然,这还意味着您很可能发现远远多于小型数据集的劣质数据记录。
但是,这只是大数据集规模较大所导致的问题,而不会导致质量问题的几率更高。虽然无论从数量上还是管理上而言,十亿个样本中出现 1% 的数据保真度问题比一百万个样本中出现 1% 的问题要糟糕得多,虽然整体比率仍然保持不变,而且对结果分析产生的影响也是一致的。在这种情况下,数据清理工作可能需要耗费更大的精力,但是,正如我们前面所说的,这其实是一项工作负载缩放问题,大数据平台非常擅长处理这类问题。
有趣的是,大数据非常适合用于解决数据质量问题,而这正是长期困扰统计分析世界的问题:传统方法需要建立培训样本模型,而不是为整体数据记录建立模型。这种观点非常重要,但并未受到足够的重视。长期以来,分析数据平台的可扩展性限制迫使建模者放弃了数据集粒度分析,以便加速模型构建、执行和计分过程。没有足够的完善数据供您驱策意味着您可能会完全忽略离群值记录,因此,记录分析曲解风险将成为漏网之鱼。
当您满心欢喜地滤除稀疏/离群值记录时,与其说会导致数据质量问题(来源和样本中的数据可能完全正确且保持最新状态),不如说会导致下游数据解析损失问题。然而,其效果可能并无二致。简单地说,整个数据集的噪音风险小于错误或受限样本导致的失真或压缩/人工结果风险。我们并不是说采样不好,但通常情况下,当您可以选择删除妨碍使用所有数据的限制时,那么您应当选择这种做法。
我们也并不是说所有此类操作都很容易。下面我们来看一个造成社交聆听领域混乱的特定客户案例。当处理有关某个主题的一般性讨论时,噪音或错误数据管理非常容易。这里的活动量通常需要考虑离群值,顾名思义,您需要对客户进行侦听。数据来自四面八方,因此您可能相信(但需要通过敏感性分析验证)遗漏或损坏的数据不会导致人们所说的误解。然而,当您判断特定客户所说的内容,并随后确定应当如何对该客户进行答复的时候,遗漏或损坏的数据所造成的问题将被扩大。出现问题的可能是(也可能不是)运行分析所用的终端,但实质上,这会带来更大的挑战。您需要了解数据错误所带来的影响,并进行相应的设计。我们会在后面的几个专栏中了解有关此主题的更多信息。
大数据可以成为数据质量的好朋友,或者至少是源自其他位置的质量问题的无辜旁观者。大家同意吗?