大数据:数据质量的好朋友?源数据质量问题

如果您希望将数据集汇总到从前在同类数据库中无法共存的 ">Apache Hadoop 集群中,如果您期望在它们之间构建统一视图,那么您可能会感觉如梦初醒。当开始处理过去一直未充分利用的信息源时,质量问题并不少见。

在探讨未充分利用的数据时,质量问题可能会成为满是肮脏之物的老鼠窝,几乎是在浪费精力预测无法预料的问题。例如,几年前,我们开展了一项复杂8206.html">系统可用性预测分析项目,发现提供作为参考的系统数据非常容易变异,并且与规范中所述的特征截然不同。“标准”绝非仅仅是“建议”。在这种情况下,您需要追溯并处理核心系统数据生成,或者解决这些质量问题。这是一种相当普遍的现象,因为依据定义,当您处理未充分利用的信息来源时,这些来源很可能是首次投入严格使用。

当您合并结构化数据与新出现的大量非结构化来源时,这个问题的复杂性将上升到一个新的高度(这一点几乎毋庸置疑),据官方记录,该问题极少得到妥善管理。事实上,在处理非结构化信息(它是最重要的新型大数据来源)时,预计该数据会模糊失真、前后矛盾和嘈杂混乱。越来越多的大数据源开始提供非事务性数据(包括事件、地理空间、行为、点击流、社交和传感器等),模糊失真和嘈杂混乱是这些数据的本质特征。通过单一系统为此类数据的处理操作建立官方标准和共享方法是一个不错的想法。

大数据可能具有更多的质量问题,只是因为其数据量更大

当探讨大数据时,通常会提及量大、速度快和品种多。当然,这还意味着您很可能发现远远多于小型数据集的劣质数据记录。

但是,这只是大数据集规模较大所导致的问题,而不会导致质量问题的几率更高。虽然无论从数量上还是管理上而言,十亿个样本中出现 1% 的数据保真度问题比一百万个样本中出现 1% 的问题要糟糕得多,虽然整体比率仍然保持不变,而且对结果分析产生的影响也是一致的。在这种情况下,数据清理工作可能需要耗费更大的精力,但是,正如我们前面所说的,这其实是一项工作负载缩放问题,大数据平台非常擅长处理这类问题。

有趣的是,大数据非常适合用于解决数据质量问题,而这正是长期困扰统计分析世界的问题:传统方法需要建立培训样本模型,而不是为整体数据记录建立模型。这种观点非常重要,但并未受到足够的重视。长期以来,分析数据平台的可扩展性限制迫使建模者放弃了数据集粒度分析,以便加速模型构建、执行和计分过程。没有足够的完善数据供您驱策意味着您可能会完全忽略离群值记录,因此,记录分析曲解风险将成为漏网之鱼。

当您满心欢喜地滤除稀疏/离群值记录时,与其说会导致数据质量问题(来源和样本中的数据可能完全正确且保持最新状态),不如说会导致下游数据解析损失问题。然而,其效果可能并无二致。简单地说,整个数据集的噪音风险小于错误或受限样本导致的失真或压缩/人工结果风险。我们并不是说采样不好,但通常情况下,当您可以选择删除妨碍使用所有数据的限制时,那么您应当选择这种做法。

我们也并不是说所有此类操作都很容易。下面我们来看一个造成社交聆听领域混乱的特定客户案例。当处理有关某个主题的一般性讨论时,噪音或错误数据管理非常容易。这里的活动量通常需要考虑离群值,顾名思义,您需要对客户进行侦听。数据来自四面八方,因此您可能相信(但需要通过敏感性分析验证)遗漏或损坏的数据不会导致人们所说的误解。然而,当您判断特定客户所说的内容,并随后确定应当如何对该客户进行答复的时候,遗漏或损坏的数据所造成的问题将被扩大。出现问题的可能是(也可能不是)运行分析所用的终端,但实质上,这会带来更大的挑战。您需要了解数据错误所带来的影响,并进行相应的设计。我们会在后面的几个专栏中了解有关此主题的更多信息。

大数据可以成为数据质量的好朋友,或者至少是源自其他位置的质量问题的无辜旁观者。大家同意吗?

时间: 2024-11-05 14:47:34

大数据:数据质量的好朋友?源数据质量问题的相关文章

互联网金融风控模型,需要多大的数据?

近两年来,"大数据"一词广受热议,提高了企业对数据及数据所产生的价值的重视,整体上推进了我国在各项商务应用和政务应用中数据支持的比重,提升了量化决策和科学决策的水平.然而,在大数据概念提出之前,我们也一直从事数据分析和建模的工作,在这里,我想谈谈大数据的出现,对互联网金融风控模型构建带来了哪些影响. 对大数据的理解 首先我们来谈谈对于大数据的理解. 大数据一词由维克托迈尔-舍恩伯格教授提出.有一种观点认为大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.然

JDBC读写MySQL的大字段数据

不管你是新手还是老手,大字段数据的操作常常令你感到很头痛.因为大字段有些特 殊,不同数据库处理的方式不一样,大字段的操作常常是以流的方式来处理的.而非一般 的字段,一次即可读出数据.本人以前用到Spring+iBatis架构来操作大字段,结果以惨 烈失败而告终,在网上寻求解决方案,也没找到答案.最终以JDBC来实现了大字段操作部 分. 本文以MySQL为例,通过最基本的JDBC技术来处理大字段的插入.读取操作. 环境: MySQL5.1 JDK1.5 一.认识MySQL的大字段类型 BLOB是一

html显示长度较大的数据时的处理方法

  在html中显示长度较大的数据时,可以将数据截取显示,当鼠标滑过时再显示完整数据. 例如,下面这种情况. 实现: 代码如下: <a title="${siteBoardInfoList.boardUrl}"> <c:if test="${fn:length(siteBoardInfoList.boardUrl) >= 40}"> ${fn:substring(siteBoardInfoList.boardUrl,0,20)}....

列表-mysql比较大的数据怎么比较快速的以表格形式列举出来

问题描述 mysql比较大的数据怎么比较快速的以表格形式列举出来 弄的iis日志,比较大.使用ctrllist一条条读取速度显得非常慢.有什么比较合适的方法,可以快速的将数据库内容以表格的形式列举出来么. 解决方案 主要是数据库的连接方式,如果用odbc或者jdbc的话,稍慢一些,ado的话,速度能快一些,使用ctrllist不要加载全部数据,采用分页来显示,速度能快不少

全球十大云计算数据中心园区,你知道吗

如今,全球知名的数据中心运营商和网络巨头在世界各地建立了各种云计算数据中心,现在对全球排名前十位的云计算园区进行了下简单的介绍.云计算园区是那些科技巨头在多个数据中心设施中集中大量计算能力的地点.这些巨大的园区是云计算运营的地方,也是互联网的物理体现.这些园区通常位于提供廉价的土地和电力的乡村地区.而其数据中心枢纽的地位可以让企业迅速增加服务器容量和电力,创造规模经济,因为越来越多的工作负载迁移到这些庞大的服务器农场. 在社交网络.大数据和物联网的推动下,云计算的增长势头强劲,这些云计算设施的规

5大开源数据存储解决方案推荐

文章讲的是5大开源数据存储解决方案推荐,用于存储大数据的解决方案是当今面临的巨大技术挑战.当然,有很多不同的选择,如RDBMS,NoSQL,时间序列数据库等,本文分析了五个数据存储解决方案,这些方案是为不同目的而创建的,但所有方案都可用于保存基于时间的日志. 数据存储仅将事件保存到数据库是不够的,每个数据存储库都必须有一个接口以实时搜索,并具有良好的性能,每天至少能够存储40GB的数据,总数据大小至少约为20TB,搜索日志消息应该实时完成,搜索查询的响应时间小于10秒. 1.ClickHouse

15大统计数据描绘网络安全行业市场蓝图

本文讲的是15大统计数据描绘网络安全行业市场蓝图,在技术领域,网络安全目前是发展最快的一大产业. 为把握该市场脉搏,美国网络安全公司 Cybersecurity Ventures 列出了2017年网络安全行业的15大统计数据. 消费 未来5年,全球网络安全消费预测累计超1万亿美元.2004年,全球网络安全市场价值仅35亿美元,2017即将增至1200亿美元.网络安全市场在13年间增长了约35倍. 网络犯罪 到2021年,全球网络犯罪造成的损失预计将达6万亿美元,2015年这个数字是3万亿美元.这

回顾2016年大数据发展,盘点十大热门数据岗位

随着很多大公司对数据分析需求增多,数据相关岗位的人才需求量也越来越大. 数据学作为一门学科,已经受到时代的追捧.数据学,或者更准确来说,大数据,在2000年早期还是个冷门,而现在早已成为人们关注的焦点.早在2014年,高德纳咨询公司就预测,到2016年将有73%的公司企业将在大数据项目中投入重金. 2016年的尾声即将到来,我们是时候回顾一下大数据的发展,盘点十大最热门的数据岗位. 随着很多大公司对数据分析需求增多,数据相关岗位的人才需求量也越来越大. 数据学作为一门学科,已经受到时代的追捧.数

李德毅院士:再大的数据也能绕过那道弯

中国电子学会云计算专家委员会名誉主任委员.中国大数据专家委员会顾问.中国工程院院士李德毅 在5月21日的第六届中国云计算大会上,李院士的演讲信息量极大,纵观科技发展几十年的历史,细数其中代表人物(居然其中还提到了歌星那英,WHY?).演讲到底有多精彩?看看李院士演讲后,火爆的新书签售现场就知道了,排队购书等着李院士签名的人足有50多米,组委会动用数名保安维持秩序,更令人惊奇的是签售的书是<不确定性人工智能>,这么高大上的书可不是每个人都能看懂的啊! 闲言少叙,请看演讲实录: 文字:基于CSDN