推荐系统-基于矩阵分解的LFM模型

  这里我想给大家介绍另外一种推荐系统,这种算法叫做潜在因子(Latent Factor)算法。这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的 @邰原朗 所介绍的算法误差(RMSE)会小不少,效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。

  这种算法的思想是这样:每个用户(user)都有自己的偏好,比如A喜欢带有小清新的吉他伴奏的王菲等元素(latent factor),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。我们希望能找到这样两个矩阵:

  一.用户-潜在因子矩阵Q

  表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。比如下面这样:

二.潜在因子-音乐矩阵P

  表示每种音乐含有各种元素的成分,比如下表中,音乐A是一个偏小清新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2……

  利用这两个矩阵,我们能得出张三对音乐A的喜欢程度是:张三对小清新的偏好*音乐A含有小清新的成分+对重口味的偏好*音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……

  即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69

  每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵。(注,这里的破浪线表示的是估计的评分,接下来我们还会用到不带波浪线的R表示实际的评分):

  因此我们队张三推荐四首歌中得分最高的B,对李四推荐得分最高的C,王五推荐B。

  如果用矩阵表示即为:

  下面问题来了,这个潜在因子(latent factor)是怎么得到的呢?

  由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的,事实上我们能获得的数据只有用户行为数据。我们沿用 @邰原朗的量化标准:单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5,在分析时能获得的实际评分矩阵R,也就是输入矩阵大概是这个样子:

  事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵


  和实际的评分矩阵不要相差太多,也就是求解下面的目标函数:

  这里涉及到最优化理论,在实际应用中,往往还要在后面加上2范数的罚项,然后利用梯度下降法就可以求得这P,Q两个矩阵的估计值。这里我们就不展开说了。例如我们上面给出的那个例子可以分解成为这样两个矩阵:

  这两个矩阵相乘就可以得到估计的得分矩阵:

  将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。

  在这个例子里面用户7和用户8有强的相似性:
  从推荐的结果来看,正好推荐的是对方评分较高的音乐:

###########################################################################################

具体公式:

下面我们就来看看LFM是如何解决上面的问题的?对于一个给定的用户行为数据集(数据集包含的是所有的user, 所有的item,以及每个user有过行为的item列表),使用LFM对其建模后,我们可以得到如下图所示的模型:(假设数据集中有3个user, 4个item, LFM建模的分类数为4)

 

R矩阵是user-item矩阵,矩阵值Rij表示的是user i 对item j的兴趣度,这正是我们要求的值。对于一个user来说,当计算出他对所有item的兴趣度后,就可以进行排序并作出推荐。LFM算法从数据集中抽取出若干主题,作为user和item之间连接的桥梁,将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵,矩阵值Pij表示的是user i对class j的兴趣度;Q矩阵式class-item矩阵,矩阵值Qij表示的是item j在class i中的权重,权重越高越能作为该类的代表。所以LFM根据如下公式来计算用户U对物品I的兴趣度

我们发现使用LFM后, 

  1. 我们不需要关心分类的角度,结果都是基于用户行为统计自动聚类的,全凭数据自己说了算。
  2. 不需要关心分类粒度的问题,通过设置LFM的最终分类数就可控制粒度,分类数越大,粒度约细。
  3. 对于一个item,并不是明确的划分到某一类,而是计算其属于每一类的概率,是一种标准的软分类。
  4. 对于一个user,我们可以得到他对于每一类的兴趣度,而不是只关心可见列表中的那几个类。
  5. 对于每一个class,我们可以得到类中每个item的权重,越能代表这个类的item,权重越高。

那么,接下去的问题就是如何计算矩阵P和矩阵Q中参数值。一般做法就是最优化损失函数来求参数。在定义损失函数之前,我们需要准备一下数据集并对兴趣度的取值做一说明。

数据集应该包含所有的user和他们有过行为的(也就是喜欢)的item。所有的这些item构成了一个item全集。对于每个user来说,我们把他有过行为的item称为正样本,规定兴趣度RUI=1,此外我们还需要从item全集中随机抽样,选取与正样本数量相当的样本作为负样本,规定兴趣度为RUI=0。因此,兴趣的取值范围为[0,1]。

采样之后原有的数据集得到扩充,得到一个新的user-item集K={(U,I)},其中如果(U,I)是正样本,则RUI=1,否则RUI=0。损失函数如下所示:

上式中的是用来防止过拟合的正则化项,λ需要根据具体应用场景反复实验得到。损失函数的优化使用随机梯度下降算法:

  1. 通过求参数PUK和QKI的偏导确定最快的下降方向;

  1. 迭代计算不断优化参数(迭代次数事先人为设置),直到参数收敛。

其中,α是学习速率,α越大,迭代下降的越快。α和λ一样,也需要根据实际的应用场景反复实验得到。本书中,作者在MovieLens数据集上进行实验,他取分类数F=100,α=0.02,λ=0.01。
           
综上所述,执行LFM需要:

  1. 根据数据集初始化P和Q矩阵(这是我暂时没有弄懂的地方,这个初始化过程到底是怎么样进行的,还恳请各位童鞋予以赐教。)
  2. 确定4个参数:分类数F,迭代次数N,学习速率α,正则化参数λ。

1.相关文档

http://blog.csdn.net/sinat_33741547/article/details/52976391

http://www.cnblogs.com/tbiiann/p/6535189.html

http://www.cnblogs.com/hxsyl/p/4885372.html

时间: 2024-10-24 20:20:11

推荐系统-基于矩阵分解的LFM模型的相关文章

用Spark学习矩阵分解推荐算法

在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述 在Spark MLlib中,推荐算法这块只实现了基于矩阵分解的协同过滤推荐算法.而基于的算法是FunkSVD算法,即将m个用户和n个物品对应的评分矩阵M分解为两个低维的矩阵: 其中k为分解成低维的维数,一般远比m和n小.如果大家对FunkSVD算法不熟悉,可以复习对应的原理篇. 2. Spark推荐算法类库介绍 在Spar

数据预处理-基于时间的矩阵分解模型,如何chulinetflix数据集

问题描述 基于时间的矩阵分解模型,如何chulinetflix数据集 我在根据项亮著作<推荐系统实践>第八章中的加入时间的矩阵分解模型做实验时,也就是timeSVD++.但是我遇到的问题是:数据集(2007年netflix比赛数据)如何处理.书上写的是把用户的评分时间从早到晚排序,取前90%作为训练集,后10%作为测试集.但是面对如此庞大的数据,还包括实验过程中要求每个用户的评分的平均时间.每个物品的评分的平均时间.这些涉及到大数据的预处理.本屌今年刚刚研一,没有数据挖掘的背景,也没有学过ha

浅谈矩阵分解在推荐系统中的应用

推荐系统是当下越来越热的一个研究问题,无论在学术界还是在工业界都有很多优秀的人才参与其中.近几年举办的推荐系统比赛更是一次又一次地把推荐系统的研究推向了高潮,比如几年前的Neflix百万大奖赛,KDD CUP 2011的音乐推荐比赛,去年的百度电影推荐竞赛,还有最近的阿里巴巴大数据竞赛.这些比赛对推荐系统的发展都起到了很大的推动作用,使我们有机会接触到真实的工业界数据.我们利用这些数据可以更好地学习掌握推荐系统,这些数据网上很多,大家可以到网上下载. 推荐系统在工业领域中取得了巨大的成功,尤其是

再谈矩阵分解在推荐系统中的应用

本文将简单介绍下最近学习到的矩阵分解方法. (1)PureSvd 矩阵分解的核心是将一个非常稀疏的评分矩阵分解为两个矩阵,一个表示user的特性,一个表示item的特性,将两个矩阵中各取一行和一列向量做内积就可以得到对应评分. 那么如何将一个矩阵分解为两个矩阵就是唯一的问题了.说到这里大家就可能想起了在线代和数值分析中学到的各种矩阵分解方法,QR,Jordan,三角分解,SVD... 这里说说svd分解. svd是将一个任意实矩阵分解为三个矩阵U,S,V,其中,U,V是两个正交矩阵,称为左右奇异

进阶隐式矩阵分解——探讨如何实现更快的算法

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文: 阶隐式矩阵分解   前不久我发布了一个Python版本的隐式交替最小二乘矩阵分解算法(代码),虽然其速度不慢:但是本着精益求精的精神,本文将围绕Conjugate Gradient(共轭梯度)方法来探讨更快的算法.  在隐式反馈数据集协作过滤(Collaborative Filtering for Implicit Feedback Datasets)中描述的算法由于极强的扩展性,因此十分流行.不但Spark mllib中的隐

跟我一起数据挖掘(13)——矩阵分解

矩阵分解 (decomposition, factorization)是将矩阵拆解为数个矩阵的乘积,可分为三角分解.满秩分解.QR分解.Jordan分解和SVD(奇异值)分解等,常见的有三种:1)三角分解法 (Triangular Factorization),2)QR 分解法 (QR Factorization),3)奇异值分解法 (Singular Value Decompostion). 三角分解法 三角分解法是将原正方 (square) 矩阵分解成一个上三角形矩阵 或是排列(permut

基于J2EE的电子商务开发模型及其实现

摘 要 介绍了J2EE体系结构,对J2EE体系结构进行了改进,提出并实现了基于J2EE的电子商务开发模型,可有效解决电子商务系统中存在的性能和可维护性等问题. 关键词 J2EE:EJB:体系结构:电子商务 随着网络的普及和发展,电子商务在当前的网络时代扮演着越来越重要的角色.电子商务从最初的静态电子商务已经发展到今天的动态电子商务.动态电子商务能够动态适应企业不断变化的业务策略的电子商务流程及相关系统,反映了在实时条件下实现应用动态集成的概念.动态电子商务的特点是软件应该按照业务的过程设计成可重

分解 atrix-C++ 关于QR矩阵分解

问题描述 C++ 关于QR矩阵分解 void QR(const Matrix& m, Matrix& Q,Matrix& R) { int n = 0; int row = m.rows(); int col = m.cols(); if (row>col){ n =col; } else{ n =row; } Matrix mtemp = m; Matrix q1(row, col); Q.resize(row,row); R.resize(row,col); int i,

矩阵分解-局部特征(比如gabor或sift特征)的低秩矩阵恢复可行吗?有没有实际意义?

问题描述 局部特征(比如gabor或sift特征)的低秩矩阵恢复可行吗?有没有实际意义? 我想在原始图像的基础上提取局部的特征(入gabor),并降维,然后以这个作为初始字典进行低秩矩阵恢复或低秩矩阵分解,不知道这样会不会比用全局特征效果好?可行吗?