大数据:数据质量的好朋友?事务性来源

许多人都有一个误解,认为数据集数量及其内部维护的数据质量之间存在一种固有的平衡。这个问题频繁显现,并且成为了 Tom 加入的 Financial Services Information ">Sharing and Analysis Center (FS-ISAC) 和其他地方的座谈小组最近谈论的一大主题。

根据这种思维,如果没有填写 Apache Hadoop 集群、大规模并行数据仓库和包含不一致、不准确、冗余、过时或不确定的17830.html">垃圾数据的其他节点,就无法扩展到 PB 级别。但我们不同意这样的观点。这也是我们认为这个概念对于实际情况过于简单化的原因所在。

大数据并非大部分数据问题的事务性来源

绝大部分企业中的数据质量问题通常可归因于来源事务系统,无论是客户关系管理 (CRM) 系统、通用账务应用程序,还是其他程序。这些系统通常都处于 TB 级别。

在进行这方面的讨论时,Jim 正确指出,未能保证记录系统整洁、通用且一致的任何 IT 管理员实际上已经输了一半。当然,您可以通过聚合、匹配、合并和清除中间临时数据库中的数据(使之达到某种程度),从下游修复问题。但质量问题与数据事务性来源控制不足有着密切的关系,但与来源的绝对数量并无太大关系。

通过大规模并行部署 IBM® InfoSphere® QualityStage®(或使用 IBM BigInsights 来冒充此功能),您可以从问题来源下游来扩展数据清除操作,但不能将无法“治愈”某个疾病归咎于该疾病并非由它所导致的。
大数据如今可以聚合以前从不需要清除的新型数据源

在传统的数据仓库系统中,人们已对数据质量问题已经有很清楚的认识(即使它仍然是一项挑战),但是,当时人们主要关心的是核心记录系统的维护问题,包括客户、财务、人力资源、供应链等。但在大数据空间又该如何做呢?

很多大数据计划均用于深入分析聚合数据源,比如社会营销情报、实时传感器数据源、从外部来源提取的数据、浏览器点击流会话、IT 系统日志等这类数据源。在历史上,这些来源并未链接到事务性系统的官方参考数据。一直以来,人们不必清除它们,因为通常采用脱机方式处理问题的专业团队往往会孤立地看待这些问题,并未将处理结果记入官方记录系统中。然而,跨信息类型分析(在大数据空间很常见)改变了这一机制。

虽然个别数据点可能具有孤立的边际价值,但拼凑起来可能会相当可观。它们有助于为发生(或即将发生)的问题提供上下文。

与业务参考数据不同的是,这些新型来源没有提供需要直接加载到企业数据仓库和脱机存档中的数据,或者说没有提供需要为了进行电子搜索而保留的数据。相反,您需要深入了解它们,以提取关键模式、趋势和根源;一旦达到自身的核心战术目的,您就可以将它们当中的大部分清理掉。这通常需要执行大量的挖掘、切片和切割操作。

在这种情况下,数据质量问题将以两种形式体现。首先,您不能失去来源、主角、参与者或操作,而这些项目需要与其余数据的定义保持一致。第二,您不能丢弃处理事务的沿袭方法。人物、事件、时间、地点以及发现和复制的方式。

正如我们 IBM 研究院的同事 John McPherson 所说的,“请记住,很多时候,当您谈到大数据时,我们所说的数据指的是过去无法很好利用的一些数据,因此我们通常是在尝试解决不同的问题。我们并非试图划定各店面的盈利能力。我们应当已经运用记录系统中的高质量数据做到了这一点,并竭尽所能在将数据放入数据仓库之时进行规范和重塑。”此处,也就是在 John 的案例中,我们要做的是找出提高店面盈利能力的一些因素。
本文仍会在第 2 部分继续我们的讨论。与此同时,请在评论中告知我们您在保持大数据质量方面的一些经验。

时间: 2024-12-20 04:01:51

大数据:数据质量的好朋友?事务性来源的相关文章

大数据:数据质量的好朋友?源数据质量问题

如果您希望将数据集汇总到从前在同类数据库中无法共存的 http://www.aliyun.com/zixun/aggregation/14417.html">Apache Hadoop 集群中,如果您期望在它们之间构建统一视图,那么您可能会感觉如梦初醒.当开始处理过去一直未充分利用的信息源时,质量问题并不少见. 在探讨未充分利用的数据时,质量问题可能会成为满是肮脏之物的老鼠窝,几乎是在浪费精力预测无法预料的问题.例如,几年前,我们开展了一项复杂8206.html">系统可用

互联网金融风控模型,需要多大的数据?

近两年来,"大数据"一词广受热议,提高了企业对数据及数据所产生的价值的重视,整体上推进了我国在各项商务应用和政务应用中数据支持的比重,提升了量化决策和科学决策的水平.然而,在大数据概念提出之前,我们也一直从事数据分析和建模的工作,在这里,我想谈谈大数据的出现,对互联网金融风控模型构建带来了哪些影响. 对大数据的理解 首先我们来谈谈对于大数据的理解. 大数据一词由维克托迈尔-舍恩伯格教授提出.有一种观点认为大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.然

吴健:小数据大心得 数据收集分析重在执行力

中介交易 SEO诊断 淘宝客 云主机 技术大厅 在我的网络推广集训系列文章第二篇<吴健:将微博做到极致,其实你也可以>中主要分享了完成牟长青师傅的第一个关于微博任务后的心得和一些增加听众的技巧,文章发布后受到许多同行朋友的关注,也纷纷加我QQ交流,在交流过程中我提的最多就是"执行力"这一词. 其实在那篇文章中,我也重点阐述了执行力在网络推广工作中的重要性,而这种重要性,在我完成长青师傅第二个关于数据收集分析任务的过程中体会更为深刻.本篇文章我也将于大家一起分享链接平台数据收

企业经营数据的质量及其八个指标

随着大数据技术逐步在企业端应用,越来越多的企业在利用数据技术提升管理效率和决策的科学性.企业对数据分析人才的需求也越来越旺盛,对管理者的数据分析能力也提出了新的要求. 数据的质量直接影响着数据的价值,并且还影响着数据分析的结果以及我们依此做出的决策的质量.质量不高的数据会影响企业的经营管理决策;如果数据是错误的,那么还不如没有数据,因为没有数据时,我们会基于经验和常识做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策.因此,数据质量是治理企业经营管理数据的关键所在. 数据的质量可以通过

JDBC读写MySQL的大字段数据

不管你是新手还是老手,大字段数据的操作常常令你感到很头痛.因为大字段有些特 殊,不同数据库处理的方式不一样,大字段的操作常常是以流的方式来处理的.而非一般 的字段,一次即可读出数据.本人以前用到Spring+iBatis架构来操作大字段,结果以惨 烈失败而告终,在网上寻求解决方案,也没找到答案.最终以JDBC来实现了大字段操作部 分. 本文以MySQL为例,通过最基本的JDBC技术来处理大字段的插入.读取操作. 环境: MySQL5.1 JDK1.5 一.认识MySQL的大字段类型 BLOB是一

html显示长度较大的数据时的处理方法

  在html中显示长度较大的数据时,可以将数据截取显示,当鼠标滑过时再显示完整数据. 例如,下面这种情况. 实现: 代码如下: <a title="${siteBoardInfoList.boardUrl}"> <c:if test="${fn:length(siteBoardInfoList.boardUrl) >= 40}"> ${fn:substring(siteBoardInfoList.boardUrl,0,20)}....

列表-mysql比较大的数据怎么比较快速的以表格形式列举出来

问题描述 mysql比较大的数据怎么比较快速的以表格形式列举出来 弄的iis日志,比较大.使用ctrllist一条条读取速度显得非常慢.有什么比较合适的方法,可以快速的将数据库内容以表格的形式列举出来么. 解决方案 主要是数据库的连接方式,如果用odbc或者jdbc的话,稍慢一些,ado的话,速度能快一些,使用ctrllist不要加载全部数据,采用分页来显示,速度能快不少

全球十大云计算数据中心园区,你知道吗

如今,全球知名的数据中心运营商和网络巨头在世界各地建立了各种云计算数据中心,现在对全球排名前十位的云计算园区进行了下简单的介绍.云计算园区是那些科技巨头在多个数据中心设施中集中大量计算能力的地点.这些巨大的园区是云计算运营的地方,也是互联网的物理体现.这些园区通常位于提供廉价的土地和电力的乡村地区.而其数据中心枢纽的地位可以让企业迅速增加服务器容量和电力,创造规模经济,因为越来越多的工作负载迁移到这些庞大的服务器农场. 在社交网络.大数据和物联网的推动下,云计算的增长势头强劲,这些云计算设施的规

5大开源数据存储解决方案推荐

文章讲的是5大开源数据存储解决方案推荐,用于存储大数据的解决方案是当今面临的巨大技术挑战.当然,有很多不同的选择,如RDBMS,NoSQL,时间序列数据库等,本文分析了五个数据存储解决方案,这些方案是为不同目的而创建的,但所有方案都可用于保存基于时间的日志. 数据存储仅将事件保存到数据库是不够的,每个数据存储库都必须有一个接口以实时搜索,并具有良好的性能,每天至少能够存储40GB的数据,总数据大小至少约为20TB,搜索日志消息应该实时完成,搜索查询的响应时间小于10秒. 1.ClickHouse