常用无监督降维方法简述

Unsupervised Dimension Reduction

Data with high dimension is always difficult to tackle. One hand is that it requires tremendous computation resource. On the other hand, it is not so objective as the one with low dimension. Therefore, dimension reduction is one of the key tricks to tackle it.

Linear Dimension Reduction

In order to reduce the dimension of samples, such as transform {xi}ni=1 into {zi}ni=1 with little lose of information, we can use linear transformation :

zi=Txi

Before doing that, it is necessary to make sure the average of training set {xi}ni=1 to be zero, i.e. centralization. So if it were not true, we should move the frame :
xi←xi−1n∑i′=1nxi′

Principal Component Analysis, PCA

PCA, as you can see in the following contents, is the simplest linear dimension reduction method. Suppose that zi is the orthogonal projection of xi. Then we require that TTT=Im. By the same way in LS methods we try to reduce the lose of information as little as possible, i.e. we try to minimize:

∑i=1n∥TTTxi−xi∥2=−tr(TCTT)+tr(C)

where C is the covariance of training set:

C=∑i=1nxixTi

In summary, PCA is defined as

maxT∈Rm×dtr(TCTT)s.t.TTT=Im

Consider the eigenvalues of C:

Cξ=λξ

Define the eigenvalues and corresponded eigen vectors as λ1≥λ2≥⋯≥λd≥0 and ξ1,…,ξd respectively. Then we get :
T=(ξ1,…,ξm)T

Here is a simple example:

n=100;
%x=[2*randn(n,1) randn(n,1)];
x=[2*randn(n,1) 2*round(rand(n,1))-1+randn(n,1)/3];
x=x-repmat(mean(x),[n,1]);
[t,v]=eigs(x'*x,1);

figure(1); clf; hold on; axis([-6 6 -6 6]);
plot(x(:,1),x(:,2),'rx');
plot(9*[-t(1) t(1)], 9*[-t(2) t(2)]);

Locality Preserving Projections

In PCA, the structure of clusters in origin training set may be changed, which is not true in locality preserving projections. It is another version of linear dimension reduction.
Define the similarity between xi and xi′ as Wi,i′≥0. When they are similar to large degree Wi,i′ is of a large value and vice versa. Since similarity is symmetric, we require Wi,i′=Wi′,i . There are several normal forms of similarity, such as the Gaussian Similarity:

Wi,i′=exp(−∥xi−xi′∥22t2)

where t>0 is a tunable parameter.
For the purpose of holding the structure of clusters, it is necessary to hypothesis that similar xi would be transformed to similar zi. That is to say, we ought to minimize:

12∑i,i′=1nWi,i′∥Txi−Txi′∥2

However, to avoid the solution T=0, we require

TXDXTTT=Im

where X=(x1,⋯,xn)∈Rd×n, D is a diagonal matrix:

Di,i′=⎧⎩⎨⎪⎪⎪⎪∑i′′=1nWi,i′′0(i=i′)(i≠i′)

If we set L=D−W, then we can represent our optimization goal as

minT∈Rm×dtr(TXLXTTT)s.t.TXDXTTT=Im

So how to solve it? Consider the method we use in PCA:

XLXTξ=λXDXTξ

Then define the generalized eigenvalues and eigen vectors as λ1≥λ2≥⋯λd≥0 and ξ1,…,ξd respectively. Therefore

T=(ξd,ξd−1,…,ξd−m+1)T
.

n=100;
%x=[2*randn(n,1) randn(n,1)];
x=[2*randn(n,1) 2*round(rand(n,1))-1+randn(n,1)/3];
x=x-repmat(mean(x),[n,1]);
x2=sum(x.^2,2);
W=exp(-(repmat(x2,1,n)+repmat(x2',n,1)-2*x*x'));
D=diag(sum(W,2)); L=D-W;
z=x'*D*x;
z=(z+z')/2;
[t,v]=eigs(x'*L*x,z,1,'sm');

figure(1); clf; hold on; axis([-6 6 -6 6]);
plot(x(:,1),x(:,2),'rx');
plot(9*[-t(1) t(1)], 9*[-t(2) t(2)]);

Kernalized PCA

Let us turn to methods of nonlinear dimension reduction. Due to the time limit, we may not analyze it as deep as the linear one.
When it comes to nonlinearity, kernal functions are sure to be highlighted. Take the Gaussian Kernal function for example:

K(x,x′)=exp(−∥x−x′∥22h2)

Here we will not take the eigenvalues of C into account as we did in PCA, but the eigenvalues of kernal matrix Kα=λα, where the (i,i′)th element is K(xi,xi′). Hence K∈Rn×n . Note that dimension of the kernal matrix K depends only on the number of samples.
However, centralization is necessary:

K←HKH

where

H=In−1n×n/n

1n×n is a matrix with all the elements to be one. The final outcome of kernalized PCA is:

(z1,….zn)=(1λ1−−√α1,⋯,1λm−−−√αm)THKH

where α1,…,αm are m eigen vectors corresponded with m largest eigenvalues of HKH.

时间: 2024-12-22 15:50:48

常用无监督降维方法简述的相关文章

2017上半年无监督特征学习研究成果汇总

更多深度文章,请关注:https://yq.aliyun.com/cloud 特征学习在无监督学习方式下的趋势:回归到多元学习的随机目标,利用因果关系来表征视觉特征,以及在强化学习中,通过辅助控制任务增加目标,并通过自发进行预训练.从未标记的数据中学到很多东西,似乎我们只用标签撇去了它的表面. 在这篇文章中,我将向你展示,2017年无监督学习领域发生了什么变化. 无监督学习是机器学习中长期存在的挑战,它被认为是人工智能的重要组成部分.在没有标签的数据中有很多信息,我们并没有完全的使用它,而值得注

PaperWeekly 第十七期 --- 无监督/半监督 NER

引言 命名实体识别是自然语言处理中一个非常基础的工作,是自然语言处理中关键的一个环节.监督学习是解决命名实体识别任务的一个基本手段,但标注数据的获取成本往往会比较高,本期PaperWeekly将带大家来看一下如何通过半监督或者无监督的方法来做命名实体识别任务.本期分享的4篇Paper Notes分别是: 1.Building a Fine-Grained Entity Typing System Overnight for a New X (X = Language, Domain, Genre

这七种数据分析领域中最为人称道的降维方法

近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现.于此同时,这也推动了数据降维处理的应用.实际上,数据量有时过犹不及.有时在数据分析应用中大量的数据反而会产生更坏的性能. 最新的一个例子是采用2009 KDD Challenge 大数据集来预测客户流失量.该数据集维度达到15000 维.大多数数据挖掘算法都直接对数据逐列处理,在数据数目一大时,导致算法越来越慢.该项目的最重要的就是在减少数据列数的同时保证丢失的数据信息尽可能少. 以该项目为例,我们开始来探讨在当前

上海科技大学屠可伟团队:小谈无监督依存句法解析

本文作者蒋勇为上海科技大学博士生,师从屠可伟博士.本文为蒋勇接受雷锋网AI科技评论独家约稿撰写的工作介绍,未经许可不得转载. 自然语言总有丰富的内部结构信息,而这些信息一般都是通过解析树(parse tree)来进行表示.一般而言,我们把从一个句子到句法树的这一过程称为句法解析(parsing). 句法解析有很多种形式,最为常用的是基于短语的句法解析(constituency parsing)和依存句法解析(dependency parsing).句法解析作为自然语言处理(NLP)的基础任务之一

Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译

Facebook试图将机器翻译的成功扩展到低资源语言对,研究了在没有任何平行数据的情况下,实现无监督的机器翻译.他们提出的模型有效地学习了在不使用任何标记数据的情况下进行翻译. 论文下载链接:https://arxiv.org/pdf/1711.00043.pdf 相信大家都知道,最近在机器翻译领域取得了令人印象深刻的成果,而这主要归功于最近在深度学习方面所取得巨大进步,以及大规模平行语料库(large-scale parallel corpora)的可用性.我们已经进行过无数次尝试,试图将这些

OpenAI"巧妙"发现无监督情感神经元,可利用文本检测用户情感

雷锋网(公众号:雷锋网)4月7日消息,OpenAI在官网公布了一项最新的研究成果,介绍了一个可以高效学习情感表征的无监督系统,目前能够预测亚马逊评论中的下一个字符. 研究人员采用了线性模型,在一个小型但是被广泛采用的数据集(Standford Sentiment Treebank)上取得了非常高的情感分析准确度:OpenAI得到的准确度为91.8%,而之前最好的是90.2%.这一表现可以匹敌之前的监督系统,而且少用了30~100倍的标记样本. 此外OpenAI表示,其模型的表征还包含了一个独立的

【Science】无监督式机器翻译,不需要人类干预和平行文本

因为神经网络,即一种以人脑为启发的计算机算法,自动的语言翻译取得了长足的进步.但是训练这样的网络需要大量的数据:通过数以百万计逐句对应的翻译来展示人类是如何做到这一点的.现在,两篇新的论文表明,神经网络可以在不需要平行文本的情况下学习翻译,这是一个令人惊讶的进步,它将可以让人们可以读懂更多语言的文档. "想象一下,你给一个人很多中文书籍和大量的阿拉伯语书籍,这些书之间没有重叠,但这个人必须学会把中文翻译成阿拉伯语.这似乎是不可能的,对吧?"其中一项研究的第一作者,西班牙圣塞巴斯蒂安巴斯

新手常用的网站推广方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 很多新手朋友在建站的过程中恐怕最让人发愁的就是网站的流量问题了,很多朋友总是在发愁不知道怎么推广网站,把流量引到自己的网站上来.其实网站的推广方法的还是很多的,今天我就为大家把一些网络上常用的推广方法给大家总结分享一下,希望能给一些新手朋友们带来一些帮助! 一.发帖式推广法 发帖推广是一种比较费劲的推广方法,也是最常用的一种方法,大部分的人的

在金山wps工具栏加入常用图片的简单方法

  在今天的金山wps使用教程,我们将跟大家分享的是在wps工具栏上加入常用图片的教程.我们在使用金山wps编辑文档的过程中,有一些常用图片需要在每次使用的时候都进行插入操作,非常繁琐,如果可以把常用图片加入到wps工具栏,就可以方便我们随时调用常用图片了.下面,小编就跟大家分享一下在金山wps工具栏加入常用图片的简单方法! 添加命令 1.添加命令 打开WPS文字2007,右击工具栏选择"自定义"打开自定义窗口,在左侧"命令栏"列表中选择"常用"