《R语言数据挖掘》----1.13 数据降维

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.13节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问“华章计算机”公众号查看。

1.13 数据降维

在分析复杂的多变量数据集时,降低维度往往是必要的,因为这样的数据集总是以高维形式呈现。因此,举例来说,从大量变量来建模的问题和基于定性数据多维分析的数据挖掘任务。同样,有很多方法可以用来对定性数据进行数据降维。

降低维度的目标就是通过两个或者多个比原先矩阵小很多的矩阵来取代大型矩阵,但原始矩阵可以被近似重构。通常是选取这些小矩阵的乘积来重构原始的矩阵,这一般会损失一些次要信息。

1.13.1 特征值和特征向量

一个矩阵的特征向量是指该矩阵(下述方程中的A)乘以该特征向量(下述方程中的v)的结果为一个常数乘以该特征向量。这个常数就是关于该特征向量的特征值。一个矩阵可能有好几个特征向量。
Av=λv

一个特征对就是特征向量及其特征值,也就是上式中的(v, λ)。

1.13.2 主成分分析

用于降维的主成分分析(Principal Component Analysis,PCA)技术将多维空间中的点集所构成的数据视为一个矩阵,其中行对应于点,列对应于维度。

该矩阵与其转置的乘积具有特征向量和特征值,其主特征向量可以看作空间中的方向,且沿着该方向,点排成最佳的直线。第二特征向量表示的方向使得源于主特征向量的偏差在该方向上是最大的。

主成分分析降维是通过最小化表示矩阵中给定列数的均方根误差来近似数据,用其少数的特征向量来表示矩阵中的点。

1.13.3 奇异值分解

一个矩阵的奇异值分解(Singular Value Decomposition,SVD)由以下3个矩阵构成:
U
Σ
V

U和V是列正交的,其列向量是正交的且它们的长度为1。Σ是一个对角矩阵,其对角线上的值称为奇异值。原始矩阵等于U、Σ和V的转置的乘积。

当连接原始矩阵的行和列的概念较少时,奇异值分解是有用的。

当矩阵U和V通常与原始矩阵一样大时,采用奇异值分解降维。为了使用较少列的U和V,删除U、V和Σ中与最小奇异值对应的列。这样根据修正后的U、Σ和V重构原始矩阵时就最小化了误差。

1.13.4 CUR分解

CUR分解旨在将一个稀疏矩阵分解成更小的稀疏矩阵,这些小矩阵的乘积近似于原始矩阵。

CUR从一个给定的稀疏矩阵中选择一组列构成矩阵C和一组行构成矩阵R,C和R的作用就相当于奇异值分解中的U和V?T。行与列是根据一个分布随机选择的,该分布取决于元素平方和的平方根。在矩阵C和R之间有一个方阵称为U,它是由所选择的行与列的交集的伪逆(pseudo-inverse)所构造出来的。

根据CUR解决方案,3个分量矩阵C、U和R将被检索。这3个矩阵的乘积将近似于原始矩阵M。在R社区中,有一个R添加包rCUR用于CUR矩阵分解。

时间: 2024-10-31 20:18:02

《R语言数据挖掘》----1.13 数据降维的相关文章

R语言数据挖掘1.13.4 CUR分解

1.13.4 CUR分解 CUR分解旨在将一个稀疏矩阵分解成更小的稀疏矩阵,这些小矩阵的乘积近似于原始矩阵. CUR从一个给定的稀疏矩阵中选择一组列构成矩阵C和一组行构成矩阵R,C和R的作用就相当于奇异值分解中的U和V?T.行与列是根据一个分布随机选择的,该分布取决于元素平方和的平方根.在矩阵C和R之间有一个方阵称为U,它是由所选择的行与列的交集的伪逆(pseudo-inverse)所构造出来的. 根据CUR解决方案,3个分量矩阵C.U和R将被检索.这3个矩阵的乘积将近似于原始矩阵M.在R社区中

《R语言数据挖掘》----第1章 预备知识 1.1大数据

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第1章 预备知识 本章中,你将学习基本的数据挖掘术语,比如数据定义.预处理等.最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类.聚类和异常值检测.在深入研究数据挖掘之前,我们来看一看将要介绍的主题:数据挖掘社交网络挖掘文本挖掘网络

《R语言数据挖掘》----1.12 数据集成

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.12节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.12 数据集成 数据集成将多个数据源中的数据合并,形成一个一致的数据存储.其常见的问题如下: 异构数据:这没有普遍的解决方案. 不同的定义(different definition):这是内在的,即相同的数据具有不同的定义,如不同的数据库模式. 时间一致性:这

《R语言数据挖掘》----1.14 数据变换与离散化

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.14节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.14 数据变换与离散化 根据前面的内容,我们可以知道总有一些数据格式最适合特定的数据挖掘算法.数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入. 1.14.1 数据变换 数据变换程序将数据变换成可用于挖掘的恰当形式.它

R语言数据挖掘

数据分析与决策技术丛书 R语言数据挖掘 Learning Data Mining with R [哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel) 著 李洪成 许金炜 段力辉 译 图书在版编目(CIP)数据 R语言数据挖掘 / (哈)贝特·麦克哈贝尔(Bater Makhabel)著:李洪成,许金炜,段力辉译. -北京:机械工业出版社,2016.9 (数据分析与决策技术丛书) 书名原文:Learning Data Mining with R ISBN 978-7-111-54769-

《R语言数据挖掘》----第2章 频繁模式、关联规则和相关规则挖掘 2.1关联规则和关联模式概述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 第2章 频繁模式.关联规则和相关规则挖掘 本章中,我们将首先学习如何用R语言挖掘频繁模式.关联规则及相关规则.然后,我们将使用基准数据评估所有这些方法以便确定频繁模式和规则的兴趣度.本章内容主要涵盖以下几个主题: 关联规则和关联模式概述 购物篮分析 混合关联规则挖掘

《R语言数据挖掘》——2.2 购物篮分析

本节书摘来自华章出版社<R语言数据挖掘>一书中的第2章,第2.2节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 2.2 购物篮分析 购物篮分析(Market basket analysis)是用来挖掘消费者已购买的或保存在购物车中物品组合规律的方法.这个概念适用于不同的应用,特别是商店运营.源数据集是一个巨大的数据记录,购物篮分析的目的发现源数据集中不同项之间的关联关系. 2

《R语言数据挖掘》----1.10 数据属性与描述

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.10节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.10 数据属性与描述 属性(attribute)是代表数据对象的某些特征.特性或者维度的字段. 在大多数情况下,数据可以用矩阵建模或者以矩阵形式表示,其中列表示数据属性,行表示数据集中的某些数据记录.对于其他情况,数据不能用矩阵表示,比如文本.时间序列.图像.

《R语言数据挖掘》----1.2 数据源

本节书摘来自华章出版社<R语言数据挖掘>一书中的第1章,第1.2节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问"华章计算机"公众号查看. 1.2 数据源 数据充当数据挖掘系统的输入,因此数据存储库是非常重要的.在企业环境中,数据库和日志文件是常见来源:在网络数据挖掘中,网页是数据的来源:连续地从各种传感器中提取数据也是典型的数据源. 这里有一些免费的在线数据源十分有助于学习数据挖掘: 频繁项集挖掘数据