Lanczos算法概述

Lanczos Algorithm：

Lanczos算法就是被设计用来做特征分解的，和其他类似的算法一样，获得的奇异向量都是很接近的（这里的翻译可能不对，immediate翻译为很快？和其他类似算法一样，获得奇异向量很快？这样翻译？）。矩阵A的奇异向量就是A^t * A 或者 A * A^t的特征向量。（这里A^t应该是矩阵A的转置么？特征向量应该是只有N*N的矩阵才有的，只有A的转置乘以A才能达到矩阵A是一个N*N的正方矩阵，这里A^t没搞懂是什么意思）。Lanczos算法使用一个种子向量v（其实这个V应该按照前面分析的理解应该就是那个初始化的13个根号13了，即列数个列数开根号），然后不断的乘以A得到v'=A.times(v)。（然后减去前一个v''的值，得到一个辅助的投影矩阵）。一般情况下矩阵A不是一个N*N的正方矩阵（更一般的情况，是非对称的），那么就要不断使用v乘以A * A^t，在mahout中对等的方法是A.timeSquared(v)，（timesSquared方法只是一个近似值：改变A*A^t.times(v)的求和顺序，就可以只把A矩阵的行传一次而不是两次？啥意思？不懂）；

k次循环后，v_i=A.timesSquared(v_(i-1))，一个k*k的对角矩阵（前面提到的辅助投影矩阵）就会被生成了，（首先应该是由对角矩阵和basis矩阵相乘得到奇异矩阵，然后使用奇异矩阵和A矩阵相乘得到A的近似矩阵，但是basis 矩阵是从哪里来的？）然后一个和A矩阵很近似但低维度的矩阵就可以生成了。k表示什么？k是矩阵A频谱的延伸（这个啥意思？）：前面几个向量代表了很大成分的奇异向量，后面的几个向量则表示的成分比较小。一个比较好的方法是首先生成3*k个奇异向量，然后只取前面成分比较大的三分之一来做计算（成分的含义：在前面的计算中可以看到singularVector都是有一个singular vlaue的，应该是由这个singularvalue来判断哪个靠前，然后成分就大）；

Parallel Stragegy：

Lanczos算法是一个并行的很尴尬的算法：一个矩阵乘以一个向量只能是按照一行来计算，然后在最后获得总的结果。当真正的执行A.times(v)的时候，最后是不会有冲突或者同步问题的（针对每一个向量，输出都是分开的）；而且多核的方法会变得很快，在hadoop上面有一些可以加速算法的优化方案。在矩阵A是不对称的情况下，A.timesSquare(v)确实需要同步，所以要延迟写入硬盘的时间知道mapper关闭。如果在设置了Combiner的话，那么加速的瓶颈就只是单个的节点加速了。（意思应该是说，如果设置了combiner的话，那么集群的加速效果应该很好了，所以能优化的地方就剩下单个节点的优化了）。

本栏目更多精彩内容：http://www.bianceng.cnhttp://www.bianceng.cn/Programming/sjjg/

时间： 2024-12-03 23:00:41

Lanczos算法概述

Lanczos算法概述的相关文章

《IS-IS网络设计解决方案》一第6章　最短路径优先算法6.1　SPF算法概述

《大数据算法》一2.1　时间亚线性算法概述

泛型算法概述

强连通分支算法概述

[推荐系统]推荐系统的常用算法概述

BloomFilter算法概述

【推荐】系统的常用算法概述

提前认识软件开发(14)：程序中的算法

用Spark学习矩阵分解推荐算法