大数据：数据质量的好朋友？源数据质量问题

如果您希望将数据集汇总到从前在同类数据库中无法共存的 ">Apache Hadoop 集群中，如果您期望在它们之间构建统一视图，那么您可能会感觉如梦初醒。当开始处理过去一直未充分利用的信息源时，质量问题并不少见。

在探讨未充分利用的数据时，质量问题可能会成为满是肮脏之物的老鼠窝，几乎是在浪费精力预测无法预料的问题。例如，几年前，我们开展了一项复杂8206.html">系统可用性预测分析项目，发现提供作为参考的系统数据非常容易变异，并且与规范中所述的特征截然不同。“标准”绝非仅仅是“建议”。在这种情况下，您需要追溯并处理核心系统数据生成，或者解决这些质量问题。这是一种相当普遍的现象，因为依据定义，当您处理未充分利用的信息来源时，这些来源很可能是首次投入严格使用。

当您合并结构化数据与新出现的大量非结构化来源时，这个问题的复杂性将上升到一个新的高度（这一点几乎毋庸置疑），据官方记录，该问题极少得到妥善管理。事实上，在处理非结构化信息（它是最重要的新型大数据来源）时，预计该数据会模糊失真、前后矛盾和嘈杂混乱。越来越多的大数据源开始提供非事务性数据（包括事件、地理空间、行为、点击流、社交和传感器等），模糊失真和嘈杂混乱是这些数据的本质特征。通过单一系统为此类数据的处理操作建立官方标准和共享方法是一个不错的想法。

大数据可能具有更多的质量问题，只是因为其数据量更大

当探讨大数据时，通常会提及量大、速度快和品种多。当然，这还意味着您很可能发现远远多于小型数据集的劣质数据记录。

但是，这只是大数据集规模较大所导致的问题，而不会导致质量问题的几率更高。虽然无论从数量上还是管理上而言，十亿个样本中出现 1% 的数据保真度问题比一百万个样本中出现 1% 的问题要糟糕得多，虽然整体比率仍然保持不变，而且对结果分析产生的影响也是一致的。在这种情况下，数据清理工作可能需要耗费更大的精力，但是，正如我们前面所说的，这其实是一项工作负载缩放问题，大数据平台非常擅长处理这类问题。

有趣的是，大数据非常适合用于解决数据质量问题，而这正是长期困扰统计分析世界的问题：传统方法需要建立培训样本模型，而不是为整体数据记录建立模型。这种观点非常重要，但并未受到足够的重视。长期以来，分析数据平台的可扩展性限制迫使建模者放弃了数据集粒度分析，以便加速模型构建、执行和计分过程。没有足够的完善数据供您驱策意味着您可能会完全忽略离群值记录，因此，记录分析曲解风险将成为漏网之鱼。

当您满心欢喜地滤除稀疏/离群值记录时，与其说会导致数据质量问题（来源和样本中的数据可能完全正确且保持最新状态），不如说会导致下游数据解析损失问题。然而，其效果可能并无二致。简单地说，整个数据集的噪音风险小于错误或受限样本导致的失真或压缩/人工结果风险。我们并不是说采样不好，但通常情况下，当您可以选择删除妨碍使用所有数据的限制时，那么您应当选择这种做法。

我们也并不是说所有此类操作都很容易。下面我们来看一个造成社交聆听领域混乱的特定客户案例。当处理有关某个主题的一般性讨论时，噪音或错误数据管理非常容易。这里的活动量通常需要考虑离群值，顾名思义，您需要对客户进行侦听。数据来自四面八方，因此您可能相信（但需要通过敏感性分析验证）遗漏或损坏的数据不会导致人们所说的误解。然而，当您判断特定客户所说的内容，并随后确定应当如何对该客户进行答复的时候，遗漏或损坏的数据所造成的问题将被扩大。出现问题的可能是（也可能不是）运行分析所用的终端，但实质上，这会带来更大的挑战。您需要了解数据错误所带来的影响，并进行相应的设计。我们会在后面的几个专栏中了解有关此主题的更多信息。

大数据可以成为数据质量的好朋友，或者至少是源自其他位置的质量问题的无辜旁观者。大家同意吗？

时间： 2024-11-05 14:47:34

大数据：数据质量的好朋友？源数据质量问题的相关文章

互联网金融风控模型，需要多大的数据？

近两年来,"大数据"一词广受热议,提高了企业对数据及数据所产生的价值的重视,整体上推进了我国在各项商务应用和政务应用中数据支持的比重,提升了量化决策和科学决策的水平.然而,在大数据概念提出之前,我们也一直从事数据分析和建模的工作,在这里,我想谈谈大数据的出现,对互联网金融风控模型构建带来了哪些影响. 对大数据的理解首先我们来谈谈对于大数据的理解. 大数据一词由维克托迈尔-舍恩伯格教授提出.有一种观点认为大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.然

JDBC读写MySQL的大字段数据

不管你是新手还是老手,大字段数据的操作常常令你感到很头痛.因为大字段有些特殊,不同数据库处理的方式不一样,大字段的操作常常是以流的方式来处理的.而非一般的字段,一次即可读出数据.本人以前用到Spring+iBatis架构来操作大字段,结果以惨烈失败而告终,在网上寻求解决方案,也没找到答案.最终以JDBC来实现了大字段操作部分. 本文以MySQL为例,通过最基本的JDBC技术来处理大字段的插入.读取操作. 环境: MySQL5.1 JDK1.5 一.认识MySQL的大字段类型 BLOB是一

html显示长度较大的数据时的处理方法

在html中显示长度较大的数据时,可以将数据截取显示,当鼠标滑过时再显示完整数据. 例如,下面这种情况. 实现: 代码如下: <a title="${siteBoardInfoList.boardUrl}"> <c:if test="${fn:length(siteBoardInfoList.boardUrl) >= 40}"> ${fn:substring(siteBoardInfoList.boardUrl,0,20)}....

列表-mysql比较大的数据怎么比较快速的以表格形式列举出来

问题描述 mysql比较大的数据怎么比较快速的以表格形式列举出来弄的iis日志,比较大.使用ctrllist一条条读取速度显得非常慢.有什么比较合适的方法,可以快速的将数据库内容以表格的形式列举出来么. 解决方案主要是数据库的连接方式,如果用odbc或者jdbc的话,稍慢一些,ado的话,速度能快一些,使用ctrllist不要加载全部数据,采用分页来显示,速度能快不少

全球十大云计算数据中心园区，你知道吗

如今,全球知名的数据中心运营商和网络巨头在世界各地建立了各种云计算数据中心,现在对全球排名前十位的云计算园区进行了下简单的介绍.云计算园区是那些科技巨头在多个数据中心设施中集中大量计算能力的地点.这些巨大的园区是云计算运营的地方,也是互联网的物理体现.这些园区通常位于提供廉价的土地和电力的乡村地区.而其数据中心枢纽的地位可以让企业迅速增加服务器容量和电力,创造规模经济,因为越来越多的工作负载迁移到这些庞大的服务器农场. 在社交网络.大数据和物联网的推动下,云计算的增长势头强劲,这些云计算设施的规

5大开源数据存储解决方案推荐

文章讲的是5大开源数据存储解决方案推荐,用于存储大数据的解决方案是当今面临的巨大技术挑战.当然,有很多不同的选择,如RDBMS,NoSQL,时间序列数据库等,本文分析了五个数据存储解决方案,这些方案是为不同目的而创建的,但所有方案都可用于保存基于时间的日志. 数据存储仅将事件保存到数据库是不够的,每个数据存储库都必须有一个接口以实时搜索,并具有良好的性能,每天至少能够存储40GB的数据,总数据大小至少约为20TB,搜索日志消息应该实时完成,搜索查询的响应时间小于10秒. 1.ClickHouse

15大统计数据描绘网络安全行业市场蓝图

本文讲的是15大统计数据描绘网络安全行业市场蓝图,在技术领域,网络安全目前是发展最快的一大产业. 为把握该市场脉搏,美国网络安全公司 Cybersecurity Ventures 列出了2017年网络安全行业的15大统计数据. 消费未来5年,全球网络安全消费预测累计超1万亿美元.2004年,全球网络安全市场价值仅35亿美元,2017即将增至1200亿美元.网络安全市场在13年间增长了约35倍. 网络犯罪到2021年,全球网络犯罪造成的损失预计将达6万亿美元,2015年这个数字是3万亿美元.这

回顾2016年大数据发展，盘点十大热门数据岗位

随着很多大公司对数据分析需求增多,数据相关岗位的人才需求量也越来越大. 数据学作为一门学科,已经受到时代的追捧.数据学,或者更准确来说,大数据,在2000年早期还是个冷门,而现在早已成为人们关注的焦点.早在2014年,高德纳咨询公司就预测,到2016年将有73%的公司企业将在大数据项目中投入重金. 2016年的尾声即将到来,我们是时候回顾一下大数据的发展,盘点十大最热门的数据岗位. 随着很多大公司对数据分析需求增多,数据相关岗位的人才需求量也越来越大. 数据学作为一门学科,已经受到时代的追捧.数

李德毅院士：再大的数据也能绕过那道弯

中国电子学会云计算专家委员会名誉主任委员.中国大数据专家委员会顾问.中国工程院院士李德毅在5月21日的第六届中国云计算大会上,李院士的演讲信息量极大,纵观科技发展几十年的历史,细数其中代表人物(居然其中还提到了歌星那英,WHY?).演讲到底有多精彩?看看李院士演讲后,火爆的新书签售现场就知道了,排队购书等着李院士签名的人足有50多米,组委会动用数名保安维持秩序,更令人惊奇的是签售的书是<不确定性人工智能>,这么高大上的书可不是每个人都能看懂的啊! 闲言少叙,请看演讲实录: 文字:基于CSDN

猜你喜欢

用Dreamweaver实现漫天花雨效果

dreamweaver 淡蓝色的天空下,一朵朵花瓣随风飘下,慢慢的在屏幕中飘荡.你一定要说这种效果用FLASH可以实现.其实用DREAMWEAVER也可以很轻松的实现! Dreamweaver之所 ...

如何做好论坛

做一个论坛不难,但要把论坛做好却不容易.怎样做一个称得上好的论坛?先从论坛发布之前的制作说起: 1.定位.专一.简约做论坛切记不要贪心,弄得五花八门,到头来一片混乱,抓不着半点头绪.给论坛的性质定位 ...

网站关键词排名的相关因素

用户体验一直是我们网站的核心数据,网站没有用户那么网站也会被百度抛弃,所以我么一定要去努力提升用户体验度,这一直是百度所传递给我们的意思,一直让我们只要做好用户体验,那么你就一定能得到百度的喜欢,然而 ...

Photoshop创意图片:制作非常漂亮的云彩背景

本教程更多的介绍如何拍摄创意的云彩图片.在拍摄之前,自己需要亲自动手制作出想要的云彩背景.然后用类似云彩的棉花铺到下面做出底部云彩.背景制作完成后就可以拍摄人物照片!非常有飘逸感.不过拍好的照片还需要 ...

向外扩展SQL Server系统的两个选项

当我提到向外扩展数据库系统时,我实际上只是讨论对数据库系统进行分割或划分,以便你能利用那些部分,把它们分配到单独的数据库服务器上.这允许你在许多服务器间分散处理能力,以适应不断扩张的增长. 但是,额外 ...

科摩多安全套装2012免费版体验教程

Comodo Internet Security(科摩多安全套装)2012提供360°的安全防护,包括强大的防病毒保护.企业级的防火墙系统以及先进的主动防御系统 Defense+.科摩多安全套装分为免 ...

QQ输入法for Mac如何切换全角/半角

QQ输入法for Mac切换全角/半角的方法如下: 在使用QQ输入法for Mac进行输入时,通过快捷键"Shift+空格"可以进行全半角切换,也可在按键设置中设置其他快捷键.

搞定网页重设计的7个必要环节

网站更新迭代重新设计恐怕是许多网站必经的环节,如何做好网页重设计也是许多设计师和产品人需要考量的事情.今天的这篇文章就是著名电商平台Shopify针对旗下企业服务平台Shopify Plus重设计 ...

WPS插入表格后设置边框的技巧

在编辑文档的时候,常常会有些数据来进行说明,而其中绘制成表格能更加的直观.在WPS文字插入表格也是常用的步骤.下面小编就为大家讲讲插入表格后,怎样修改表格边框?非常简单,一起来看看. 首先在表格中 ...

Win7激活提示“系统保留分区未分配驱动器号”怎么办？

有时候我们刚装上Win7时,发现还不能够使用,想要进行激活却发现提示"系统保留分区未分配驱动器号",遇到这个问题肯定很多用户都不知道怎么解决,为此小编整理了一篇Win7激活提示 ...

不知道这个undeclared identifier怎么回事？

问题描述不知道这个undeclared identifier怎么回事? 解决方案 number是成员变量,在类外面使用,必须通过对象.number 的形式才能访问,不能直接写. 解决方案二: 将方 ...

大数据-新闻推荐系统中的推荐算法

问题描述新闻推荐系统中的推荐算法如何有一个算法是从大数据的新闻列表中通过内容找到自己想要的新闻呢?基于Hadoop的可以.求大神们给一些思路.不要关系型数据库的. 解决方案 [推荐系统算法]推荐引 ...

linux 管道父进程写入管道的数据，其他进程没有处理怎么办？

问题描述 linux 管道父进程写入管道的数据,其他进程没有处理怎么办? #include #include int main(void) { int n; char line[MAXLINE]; ...

Spirng+SpringMVC+Maven+Mybatis+MySQL项目搭建

开源不应作为推荐的理由

明天去学校啦,近两个月的暑假结束了,来总结总结这个暑假的经历.早在放假前,我就计划好了,这个暑假一定要熟悉一下 Linux 的使用.在这个期间,我也看到很多开源人士和 Windows 的铁杆粉丝们在论 ...

《编程珠玑（第2版•修订版）》—第1章1.5节原理

1.5 原理那个程序员打电话把他的问题告诉我,然后我们花了大约一刻钟时间明确了问题所在,并找到了位图解决方案.他花了几个小时来实现这个几十行代码的程序.该程序远远优于我们在电话刚开始时所担心的需要花 ...

jsp-tomcat提示action错误

问题描述 tomcat提示action错误 struts配置: /validate.jsp /success.jsp validate.jsp: /s:form ValidateAction: pac ...

使用Lynx文本浏览器检查网站的隐藏链接

Lynx是"Distributed Computing Group within Academic Computing Services of The University of Kansa ...

前端-chart.js中环形图的标签的宽度

问题描述 chart.js中环形图的标签的宽度用chart.js绘制环形图or饼状图,标签(label)的宽度如何设置??

cordova 移动开发网络未响应

问题描述 cordova 移动开发网络未响应按照新手教程:Sencha cmd 的文档cordova 的文档配置cordova+sencha touch的移动开发平台.然而按照第一个文档编译成功之 ...

关于java通信接口的问题，

问题描述关于java通信接口的问题, package com.test.www; import java.util.Enumeration; public class Hello { public ...

treeview绑定到了数据库,也成功显示出了数据,只是显示不完全,只能显示出前几个,不知道这是为什么?

问题描述在数据库中parent_id为"0"的有10个,但是运行时却只能显示前5个,不知道为什么呢?//protectedvoidPage_Load(objectsender,E ...

《Hadoop与大数据挖掘》一2.3　Hadoop集群命令

2.3 Hadoop集群命令一般操作Hadoop集群都是使用相关的Hadoop命令,比如文件上传.下载.删除,文件夹新建.删除.拷贝等:又或者提交MapReduce任务并执行.查看MapReduce ...

iOS App中实现播放音效和音乐功能的简单示例_IOS

播放音效iOS开发过程中可能会遇到播放音效的功能其实很简单,iOS已经提供了一个框架直接负责播放音效 AudioToolbox.framework 新建项目 TestWeChatSounds 给新 ...

万华并购中东欧最大MDI制造商

中国企业出海收购再传捷报.2月10日,烟台万华(600309)公告,公司控股股东万华实业集团有限公司已经以12.63亿欧元的价格,获得中东欧最大异氰酸酯生产商宝思德化学公司96%股权.万华实业将通过控 ...

新浪微博的大数据策略

北京时间10月7日上午消息新浪联席总裁兼首席技术官许良杰上周六出席了硅谷华源科技协会2013年会,并在会议间隙接受了当地数家媒体采访.他在采访中表示,新浪将通过大数据整合门户与微博等诸多业务, ...

javaweb-ObjectMapper解析对象时出错

问题描述 ObjectMapper解析对象时出错用ObjectMapper解析的对象含List<? extends User> 该怎么解析,直接ObjectMapper mapper = ...

美国监视法案即将到期监控隐私再被热议

3月15日消息据外媒(PCWorld)报道,赋予美国情报部门境外监视权的<外国情报监视法>第702条将于12月31日到期.这部法律曾引起广泛争议,加上最近美国情报界的丑闻频出,监控和隐私 ...

利用客户端js实现汉字简体繁体转换－1

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"><HTML><HEAD&g ...

解读电子商务矩阵式管理方法

中介交易 SEO诊断淘宝客云主机技术大厅电子商务下的组织结构设计并不单单是管理的工作,设计的目的是借助于适应环境要求和组织发展的结构来达到提高管理水平.促进组织成长的目标.为了适应电子商务的客 ...

热搜