从算法原理,看推荐策略

 

推荐算法简介

目前的推荐算法一般分为四大类:

  • 协同过滤推荐算法
  • 基于内容的推荐算法
  • 混合推荐算法
  • 流行度推荐算法

协同过滤的推荐算法

协同过滤推荐算法应该算是一种用的最多的推荐算法,它是通过用户的历史数据来构建“用户相似矩阵”和“产品相似矩阵”来对用户进行相关item的推荐,以达到精准满足用户喜好的目的。比如亚马逊等电商网站上的“买过XXX的人也买了XXX”就是一种协同过滤算法的应用。

基于内容的推荐算法

基于内容的推荐算法,是将item的名称、简介等进行分词处理后,提取出TF-IDF值较大的词作为特征词,在此基础上构建item相关的特征向量,再根据余弦相似度来计算相关性,构建相似度矩阵。

混合推荐算法

混合推荐算法很好理解,就是将其他算法推荐的结果赋予不同的权重,然后将最后的综合结果进行推荐的方法。

举例来说,比如上述已经提到了三种方式,协同过滤算法中的基于用户和基于item的协同过滤推荐,和基于内容的推荐算法;而混合推荐算法中是将这三种推荐结果赋予不同的权重,如:基于用户的协同过滤的权重为40%,基于item的协同过滤的权重为30%,基于内容的过滤技术的权重为30%,然后综合计算得到最终的推荐结果。

流行度推荐算法

这个很基础,看名字就知道了。这种方法是对item使用某种形式的流行度度量,例如最多的下载次数或购买量,然后向新用户推荐这些受欢迎的item。就和我们平时经常看到的热门商品、热门推荐类似。

浅析推荐算法在实际中的应用

了解了大概原理后,就可以来看看在实际场景中,推荐算法都是怎么使用的吧。(事先声明,这只是我看了相关东西再结合自己理解进去推测的,如果有说错的地方请各位千万放下手中的刀……)

好,下面开始,先说说协同过滤算法在实际中的应用。

协同过滤算法

协同过滤算法一般是怎么做的呢?我们先来看看在图书推荐中的做法:

协同过滤(CF)大致可分为两类:一类是基于邻域的推荐、一类是基于模型的推荐;邻域方法是使用用户对已有item的喜爱程度来推测用户对新item的喜爱程度。与之相反,基于模型的方法是使用历史行为数据,基于学习出的预测模型,预测对新项的喜爱程度。通常的方式是使用机器学习算法,找出用户与项的相互作用模型,从而找出数据中的特定模式。(由于基于模型的方法我也不太理解,暂时不展开说明,感兴趣的可以查阅相关资料)

【基于邻域的推荐】–即是构建用户相似矩阵和产品相似矩阵

假设用户表现出了对一些图片的喜欢情况并进行了相应的评分,情况如下:

不同图书代表不同维度,评分则代表了特征向量在该维度上的投影长度,根据用户对不同图书的喜爱程度建立用户的特征向量,然后根据余弦相似度可以判断用户之间的相似性。根据相似性可以建立用户相似矩阵:

很显然,通过根据用户对历史图书的评分情况,可以得到用户对其的喜爱情况,在此基础上构建出用户特征向量,可以一定程度上判断两个用户在图书品味上的相似程度,进而我们可以认为,若A和B比较相似,可以认为A喜欢的书B也喜欢。

在给A用户进行图书推荐时,找到与其相似度较高的其他用户,然后除去A用户已看过的图书,结合相似用户对某本图书的喜爱程度与该用户与A用户的相似度进行加权,得到的推荐指数越高的图书优先进行推荐。

这应该也是豆瓣等图书社区上使用的推荐算法之一,利用用户之间的相似度来进行推荐。当然,电影推荐也同理。

同理,反过来我们可以按照相似的方位,以用户为维度来构建item的特征向量。 当我们需要判断两本书是否相似时,就去看对这两本书进行过评价的用户构成是否相似,即是使用评价过一本书的用户向量(或数组)表示这本图书;也就是说,如果有两本书的评价中,用户重合度较高,即可认为该两本书相似度较高。其实借用的还是用户相似的基础。(《白话大数据与机器学习》中也提到过相似的推荐算法,感兴趣的同学可以找来看一下)。

在音乐的推荐中同样用到了协同过滤算法,我们众所周知的使用个性化推荐的音乐app应该属「网易云音乐」比较典型了。

那么我们就来yy一下网易云音乐的推荐算法,首先用户过去都会有听歌的历史,由于音乐中没有相关的评分机制,那么可以根据用户对音乐的行为来建立一个喜爱程度模型,例如:收藏-5分,加入歌单-4分,单曲循环-3分,分享-5分,听一遍就删-0分(本来想说负分滚粗的)。这样就大概有了一个喜欢程度列表,于是接下来就可以根据用户的听歌情况,建立用户的特征向量,接下来的推荐就顺利成章了。

当然,基于协同过滤算法的用户相似度矩阵算法应该只是网易云采取的一种推荐方式,接下来还会说到另外的方式。

值得注意的是,协同过滤的推荐算法虽然使用得很广且推荐效果也较好,但还是存在一些不足之处:

  • 协同过滤算法(CF)推荐中存在流行性偏差,因为协同过滤算法是基于惯性数据来进行推荐的,流行的物品由于关注的用户多,产生的数据也多,因此可以建立较为有效的推荐机制;而对于小众或长尾的产品(没人用过也没人评分过),则无法有效推荐;
  • 冷启动问题(又叫做新用户问题,或推荐新项问题),同样是由于惯性数据的缺失,导致一开始的推荐算法无法建立;这样的问题可以通过流行性算法进行一定程度的解决,当然也可以利用基于内容的推荐算法来进行解决(后面会提到)。

基于内容的过滤算法

简介部分已经提到了基于内容的过滤算法的基本原理,这里就不再重复了,直接说一下具体大概是怎么用的吧。

基于内容的过滤方式与协同过滤中建立用户相似矩阵的方式类似,都是利用特征向量来进行余弦相似度计算,从而判断物品的相似性。

首先, 利用分词技术对书籍的标题和内容进行处理,去掉权重为0的词(如的、得、地等);

然后,取 TF-IDF值较大的词作为特征词,并将其提取出来作为标签;

接着, 根据特征词建立书籍的特征向量;

最后, 计算不同书籍之间的余弦相似度,并凭次建立书籍之间的相似度矩阵;

基于内容的协同过滤算法,最主要的初级步骤是通过分词技术对标题和简介等进行处理,形成特征标签。例如,对于图书和电影而言,可以对名称和简介进行特征词提取,从而构建特征向量;当然,在豆瓣上发现可以用一种更省事的方法,就是让用户进行对作品评价时需要勾选相关的标签,这样只要为不同种类提供足够多的标签供用户选择即可(当然这是我猜的);

而如果对于音乐的推荐呢?没有相关简介,歌名也不具备足够的指向性,这种情况下则可以通过音乐本身的类别来作为标签进行特征向量的构建,例如:民谣、摇滚、怀旧等;我猜这也是网易云音乐采用的一种推荐方式吧。

而对于36氪之类的资讯网站,采用什么样的推荐算法也能够有一定程度的理解了吧,原理都是类似的。

基于内容的推荐由于不需要太多的惯性数据,因此可以部分解决冷启动问题和流行性偏差,也就是弥补了协同过滤算法中的部分不足,因此也可以将两者混合起来使用,例如混合推荐算法就是采用了这样的方式;其次,需要注意的是,如果单纯使用基于内容的过滤算法,会出现过度专业化问题,导致推荐列表里面出现的大多都是同一类东西,有的小伙伴可能也观察到了类似的现象,比如在亚马逊上购买哪本书(比如java相关的),会发现推荐的书籍里全是java相关的,就是因为出现了过度专业化的现象。

结语

推荐算法的原理其实基于数学的原理得到解决(向量、余弦相似度等),其实其他各类也同理,都是可在数学的基础上得到思路和衍生,如用来进行情感判断的朴素贝叶斯算法,就是将人才能理解的情感问题转化成了基本的概率问题而得到解决,包括自然语言处理(NLP)和语音识别等,由此真是可以体会到数学的博大精深啊。

作为一名初级产品汪而言,从算法原理角度理解一些实际问题还是很有帮助的,当然具体上手层面还需要开发同学的大力协助。  

本文作者:Mr_yang

来源:51CTO

时间: 2024-09-17 04:01:38

从算法原理,看推荐策略的相关文章

SEO搜索中文分词算法原理实战教程

SEO搜索中文分词算法原理实战教程,如果一个人想成为一个合格的SEO人员,那么搜索引擎分词思维是必须掌握的,因为只有掌握了分词思维,你才可以做出搜索引擎喜欢,而且用户也喜欢的网页,虽然在梦想之旅视频教程中有和大家分享过搜索引擎中文分词原理,但没有完全的,系统的用文字版本和图片版本和大家分享,那么顾芳源就带大家如何正确学习SEO搜索分词思维吧. 搜索引擎中文分词原理 首先我们要知道搜索引擎工作原理是把每个网页的内容按词来录入到数据库,比如你的文章标题是:梦想SEO实战培训提供免费SEO教程,那么搜

[数据库]MySQL索引背后的数据结构及算法原理

一 写在前面的话 在编程领域有一句人尽皆知的法则"程序 = 数据结构 + 算法",我个人是不太赞同这句话(因为我觉得程序不仅仅是数据结构加算法),但是在日常的学习和工作中我确认深深感受到数据结构和算法的重要性,很多东西,如果你愿意稍稍往深处挖一点,那么扑面而来的一定是各种数据结构和算法知识.例如几乎每个程序员都要打交道的数据库,如果仅仅是用来存个数据.建建表.建建索引.做做增删改查,那么也许觉得数据结构和这东西没什么关系.不过要是哪天心血来潮,想知道的多一点,想研究一下如何优化数据库,

推荐算法---协同过滤推荐算法

基于用户的协同过滤推荐算法原理和实现       在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单.该算法1992年提出并用于邮件过滤系统,两年后1994年被 GroupLens 用于新闻过滤.一直到2000年,该算法都是推荐系统领域最著名的算法.       本文简单介绍基于用户的协同过滤算法思想以及原理,最后基于该算法实现园友的推荐,即根据你关注的人,为你推荐博客园中其他你有可能感兴趣的人. 基本思想       俗话说"物以类聚.人以群分",拿看电影这

k-means聚类算法原理及其实现

k-means(k-均值)算法是一种基于距离的聚类算法,它用质心(Centroid)到属于该质心的点距离这个度量来实现聚类,通常可以用于N维空间中对象.下面,我们以二维空间为例,概要地总结一下k-means聚类算法的一些要点: 除了随机选择的初始质心,后续迭代质心是根据给定的待聚类的集合S中点计算均值得到的,所以质心一般不是S中的点,但是标识的是一簇点的中心. 基本k-means算法,开始需要随机选择指定的k个质心,因为初始k个质心是随机选择的,所以每次执行k-means聚类的结果可能都不相同.

空中鼠标算法原理讨论

   空中鼠标是利用陀螺仪输出的数据,对屏幕上的光标进行控制的设备.原理看起来相对简单,但实现起来,也有不少需要解决的问题.本文是作者在之前开发时的总结. 基本原理      将空中鼠标的X轴(Pitch)角速度和Z轴(Yaw)映射到鼠标的移动速度上.因此抓握设备的方式就事先要确定,比如哪面朝前,哪面朝上.灵敏度也需要通过实验进行确定.如果能够获取屏幕的分辨率或者屏幕尺寸从而进行动态调节,则效果更佳. 抗静态偏移      鼠标在不移动的时候,光标自然是不能移动的.但不得不指出,廉价的陀螺仪本身

教你如何利用算法原理,让TA对你一见钟情

Tinder主打"看脸配对",操作非常简单,如果对TA感兴趣,可以将照片向右滑动,代表喜欢:如果对TA不感兴趣,可以将照片向左滑动,让其消失.一旦双方都标记为了"喜欢",就可以彼此发起对话. 鸡年过半,对象还没搞定?好消息,经过无数个昼夜的冥思苦想,我们已经找到Tinder配对算法的工作原理了!这个复杂的算法耗费了我们两个多月时间. Tinder配对算法是通过投票.打分和发消息这几种因素驱动的.Tinder配对算法会让你与对你感兴趣的人(通过右滑手机屏幕实现)配对.

DBSCAN聚类算法原理及其实现

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法,它是一种基于高密度连通区域的.基于密度的聚类算法,能够将具有足够高密度的区域划分为簇,并在具有噪声的数据中发现任意形状的簇.我们总结一下DBSCAN聚类算法原理的基本要点: DBSCAN算法需要选择一种距离度量,对于待聚类的数据集中,任意两个点之间的距离,反映了点之间的密度,说明了点与点是否能够聚到同一类中.由于DBSCAN算法对高维数据定义密度很困难,

《Hadoop与大数据挖掘》一2.5 K-Means算法原理及Hadoop MapReduce实现

2.5 K-Means算法原理及Hadoop MapReduce实现 2.5.1 K-Means算法原理 K-Means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表.它是将数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则(如图2-45所示).K-Means算法以欧氏距离作为相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标最小.算法采用误差平方和准则函数作为聚类准则函数. 具体的算法步骤如下: 1)随机在图中取K(这里K=2)个种子点

这咯算法有点看不懂,求解?

问题描述 这咯算法有点看不懂,求解? 解决方案 ?:这是条件运算符,其结合性是从右到左,当其嵌套使用时,应该将最后一个问号与紧靠其右的冒号配对. 所以(((x)<(y)?-1:((x))==((y))?0:1指的是: (((x))<(y))?-1:(((x))==((y))?0:1) 即如果x<y成立,取-1的值,否则取若((x))==((y))?0:1这部分结果. 解决方案二: x x==y 返回0 x>y 返回1 解决方案三: 这是c语言里面的宏定义,对于为什么前后加括号,因为