《R语言数据挖掘》----1.11 数据清洗

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.11节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问“华章计算机”公众号查看。

1.11 数据清洗

数据清洗是数据质量的一部分,数据质量(Data Quality,DQ)的目标如下:
准确性(数据被正确记录)。

完整性(所有相关数据都被记录)。

唯一性(没有重复的数据记录)。

时效性(数据不过时)。

一致性(数据是一致的)。

数据清洗试图填补缺失值、发现异常值同时平滑噪声、修正数据中的不一致性。数据清洗通常是一个两步迭代的过程,由差异检测和数据变换构成。

在大多数情况下,数据挖掘的过程都包含如下两个步骤:
第一步对源数据集进行测试以便发现差异。

第二步是选择变换方法来修正数据(基于要修正属性的准确性以及新值与原始值的接近程度)。然后应用变换来修正差异。

1.11.1 缺失值

在从各类数据源获取数据的过程中,当某些字段为空或者包含空值时会存在许多情况。好的数据录入程序应该尽量避免或者最小化缺失值或错误的数目。缺失值与默认值是无法区分的。

如果某些字段存在缺失值,那么有一些解决方案——每种解决方案都有不同的考虑与缺陷,并且每种方案在特定情况下都是可用的。

忽略元组:由于忽略元组,除了那个缺失值以外,你也不能使用剩余的值。

这种方法只适用于当元组包含的一些属性有缺失值或者每个属性缺失值的百分比变化不大时。

人工填补缺失值:对于大型数据集,该方法并不适用。

使用全局常量填补缺失值(use a global constant to fill the value):使用该常量填补缺失值可能会误导挖掘过程,并不十分安全。

使用属性集中趋势的度量来填补缺失值:集中趋势的度量可用于对称数据分布。

使用属性均值或者中位数:当给定元组时,对于属于同一类的所有样本使用属性均值或者中位数。

使用最可能的值来填补缺失值:缺失值可以用回归或者基于推理的工具,比如贝叶斯形式或者决策树归纳所确定的数据进行填补。

最流行的方法是最后一种方案,它基于当前值以及源于其他属性的值。

1.11.2 垃圾数据、噪声数据或异常值

正如在物理测试或者统计测试中,噪声是发生在获取测量数据的测试过程中的一个随机误差。对于数据收集的过程,不管你使用什么方法,噪声都不可避免地存在。

用于数据平滑的方法如下所述。随着数据挖掘研究的发展,新的方法也不断出现。

分箱:这是一个局部范围平滑的方法,在该方法中,使用近邻值计算特定箱子的终值。已排序的数据分布到多个箱子中,箱子中的每个值将被基于近邻值来计算出的值所取代。计算可以是箱子的中位数、箱子的边界,即箱子的边界数据。

回归:回归的目标是找到最佳曲线或者多维空间中某个类似于曲线的东西(函数)。因此,其他值可以用于预测目标属性或者变量的值。在其他方面,这是一种比较流行的平滑方法。

分类或者异常检测:分类器是发现噪声或者异常的另一种固有方法。在分类过程中,除了异常值外,大部分源数据将被分组到几个类中。

时间: 2024-10-15 03:23:14

《R语言数据挖掘》----1.11 数据清洗的相关文章

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R [哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel) 著 李洪成 许金炜 段力辉 译 图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》----第1章 预备知识 1.1大数据

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第1章 预备知识 本章中,你将学习基本的数据挖掘术语,比如数据定义.预处理等.最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类.聚类和异常值检测.在深入研究数据挖掘之前,我们来看一看将要介绍的主题:数据挖掘社交网络挖掘文本挖掘网络

《R语言数据挖掘》----第2章 频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘

《R语言数据挖掘》----1.13 数据降维

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.13节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.13 数据降维 在分析复杂的多变量数据集时,降低维度往往是必要的,因为这样的数据集总是以高维形式呈现.因此,举例来说,从大量变量来建模的问题和基于定性数据多维分析的数据挖掘任务.同样,有很多方法可以用来对定性数据进行数据降维. 降低维度的目标就是通过两个或者多

《R语言数据挖掘》——2.2 购物篮分析

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.2节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 2.2 购物篮分析 购物篮分析(Market basket analysis)是用来挖掘消费者已购买的或保存在购物车中物品组合规律的方法.这个概念适用于不同的应用,特别是商店运营.源数据集是一个巨大的数据记录,购物篮分析的目的发现源数据集中不同项之间的关联关系. 2

《R语言数据挖掘》----1.10 数据属性与描述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.10节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.10 数据属性与描述 属性(attribute)是代表数据对象的某些特征.特性或者维度的字段. 在大多数情况下,数据可以用矩阵建模或者以矩阵形式表示,其中列表示数据属性,行表示数据集中的某些数据记录.对于其他情况,数据不能用矩阵表示,比如文本.时间序列.图像.

《R语言数据挖掘》----1.2 数据源

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.2节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.2 数据源 数据充当数据挖掘系统的输入,因此数据存储库是非常重要的.在企业环境中,数据库和日志文件是常见来源:在网络数据挖掘中,网页是数据的来源:连续地从各种传感器中提取数据也是典型的数据源. 这里有一些免费的在线数据源十分有助于学习数据挖掘: 频繁项集挖掘数据

《R语言数据挖掘》----1.3 数据挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.3 数据挖掘 数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的.有效的.意想不到的且可以理解的知识.有些目标与其他科学,如统计学.人工智能.机器学习和模式识别是相同的.在大多数情况下,数据挖掘通常被视为一个算法问题.聚类.分类.关联

《R语言数据挖掘》——1.4 社交网络挖掘

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.4节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.4 社交网络挖掘 正如我们前面提到的,数据挖掘是从数据中发现一个模型,社交网络挖掘就是从表示社交网络的图形数据中发现模型. 社交网络挖掘是网络数据挖掘的一个应用,比较流行的应用有社会科学和文献计量学.PageRank和HITS算法.粗粒度图模型的不足.增强模型和