如何实现基于内容和用户画像的个性化推荐

基于内容和用户画像的个性化推荐,有两个实体:内容和用户。需要有一个联系这两者的东西,即为标签。内容转换为标签即为内容特征化,用户则称为用户特征化。

因此,对于此种推荐,主要分为以下几个关键部分:

  • 标签库
  • 内容特征化
  • 用户特征化
  • 隐语义推荐

综合上面讲述的各个部分即可实现一个基于内容和用户画像的个性化推荐系统。如下图所示:

标签库

标签是联系用户与物品、内容以及物品、内容之间的纽带,也是反应用户兴趣的重要数据源。标签库的最终用途在于对用户进行行为、属性标记。是将其他实体转换为计算机可以理解的语言关键的一步。

标签库则是对标签进行聚合的系统,包括对标签的管理、更新等。

一般来说,标签是以层级的形式组织的。可以有一级维度、二级维度等。

标签的来源主要有:

  • 已有内容的标签
  • 网络抓取流行标签
  • 对运营的内容进行关键词提取

对于内容的关键词提取,使用结巴分词 + TFIDF即可。此外,也可以使用TextRank来提取内容关键词。

内容特征化

内容特征化即给内容打标签。目前有两种方式:

  • 人工打标签
  • 机器自动打标签

针对机器自动打标签,需要采取机器学习的相关算法来实现,即针对一系列给定的标签,给内容选取其中匹配度最高的几个标签。这不同于通常的分类和聚类算法。可以采取使用分词 + Word2Vec来实现,过程如下:

  • 将文本语料进行分词,以空格,tab隔开都可以,使用结巴分词。
  • 使用word2vec训练词的相似度模型。
  • 使用tfidf提取内容的关键词A,B,C。
  • 遍历每一个标签,计算关键词与此标签的相似度之和。
  • 取出TopN相似度最高的标签即为此内容的标签。(N这里取3)

用户特征化

用户特征化即为用户打标签。通过用户的行为日志和一定的模型算法得到用户的每个标签的权重。

  • 用户对内容的行为:点击、不敢兴趣、浏览
  • 对内容发生的行为可以认为对此内容所带的标签的行为
  • 用户的兴趣是时间衰减的,即离当前时间越远的兴趣比重越低。时间衰减函数使用1/[log(t)+1], t为事件发生的时间距离当前时间的大小
  • 要考虑到热门内容会干预用户的标签,需要对热门内容进行降权。使用click/pv来降低热门内容的权重

隐语义推荐

有了内容特征和用户特征,可以使用隐语义模型进行推荐。这里可以使用其简化形式,以达到实时计算的目的。

用户对于某一个内容的兴趣度(可以认为是CTR):

其中i=1…N是内容具有的标签,m(ci)指的内容c和标签i的关联度(目前都为1),n(ui)指的是用户u的标签i的权重值,q指的是内容c的质量,暂时使用点击率表示。

本文作者:飒然Hang

来源:51CTO

时间: 2024-10-08 09:24:16

如何实现基于内容和用户画像的个性化推荐的相关文章

如何基于Spark进行用户画像?

近期,comSysto公司分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴. 主办方提供了一个包含5万个匿名驾驶员线路的数据集,竞赛的目的是根据路线研发出一个驾驶类型的算法类签名,来表征驾驶员的特征.例如,驾驶员是否长距离驾驶?短距离驾驶?高速驾驶?回头路?是否从某些站点急剧加速?是否高速转弯?所有这些问题的答案形成了表征驾驶员特征的独特标签. 面对此挑战,comSysto公司的团队想到了涵盖批处理.流数据.机器学习.图处理.S

用户画像数据建模方法

原文http://blog.baifendian.com/?p=8015 从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了"大数据时代".经历了12.13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术.伴随着大数据应用的讨论.创新,个性化技术成为了一个重要落地点.相比传统的线下会员管理.问卷调查.购物篮分析,大数据第一

《推荐系统:技术、评估及高效算法》一3.3 基于内容的推荐系统的现状

3.3 基于内容的推荐系统的现状 顾名思义,基于内容的推荐是利用物品的内容数据来预测它和用户个人信息的相关性.基于内容的推荐系统的研究涉及计算机科学的许多方面,尤其是在信息检索[6]和人工智能领域. 在信息检索领域,推荐技术研究的想象力来自将用户搜索推荐结果看作一个信息检索的过程.在信息检索系统中,用户需要给出一次性查询信息(经常是一个关键词列表),而在信息过滤系统,用户的信息需求被表示成他的个人信息.由于用来描述物品的属性在数量和类型上的差异,待推荐物品也会有较大差异.每个物品当然可以用一组已

干货:如何构建用户画像

一.什么是用户画像? 男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟. 这样一串描述即为用户画像的典型案例.如果用一句话来描述,即:用户信息标签化. 如果用一幅图来展现,即: 二.为什么需要用户画像 用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如: 可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男.女比例是多少? 可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段

大数据精准营销的关键“三部曲”及核心“用户画像”

大数据时代,实现精准营销并非无规律可循,关键三部曲,其中用户画像是核心: 第一步:知己,意味着知道自己产品的定位是什么,产品卖点是什么等等. 构建产品标签+内容标签. 第二步:知彼,简单的说就是清楚竞争对手的情况.清楚目标用户的情况. 构建用户标签,识别自身竞争力,选取切入点. 第三步:作战,对不同的对象采取不同的策略,直击痛点,实现转化. 序言 大数据时代下,企业如何驾驭数据,利用数据驱动.支持决策,是形成差异化竞争优势的关键所在.这听起来不错,但如何真正落地,是非常不容易的事,尤其是传统企业

基于用户的协同过滤推荐算法原理和实现

      在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单.该算法1992年提出并用于邮件过滤系统,两年后1994年被 GroupLens 用于新闻过滤.一直到2000年,该算法都是推荐系统领域最著名的算法.       本文简单介绍基于用户的协同过滤算法思想以及原理,最后基于该算法实现园友的推荐,即根据你关注的人,为你推荐博客园中其他你有可能感兴趣的人. 基本思想       俗话说"物以类聚.人以群分",拿看电影这个例子来说,如果你喜欢<蝙蝠侠&

文章个性化推荐靠不靠谱?万字长文详解AI内容分发的真实现状

在AI时代,我们需要重新理解和认知内容C2M(单用户沟通)的机制和规律,去检讨传统传播理论的不足以及公共危机的管理方法,进而思考如何赢得沟通--要站在单个用户的角度来进行个体化沟通,而不是千人一面的宣灌或传播. 自从互联网商业化发展以来,不论是新闻客户端.视频网站或是电商平台--所有的平台,都是把自己默认为一个优秀的饲养员,它按照自己的想法,把内容(饲料)Push(喂)给用户. 这些饲养员都是受过训练的专业人士,行话叫做---由网站编辑为用户设置议程,按照大多数用户的口味挑选内容. 后来编辑实在

基于用户画像的实时异步化视频推荐系统

前言 这个月做的事情还是蛮多的.上线了一个百台规模的ES集群,还设计开发了一套实时推荐系统. 标题有点长,其实是为了突出该推荐系统的三个亮点,一个是实时,一个是基于用户画像去做的,一个是异步化. 实时主要体现在三个层面: 1.用户画像中的的短期兴趣模型实时构建. 也就是你看完一个视频,这个视频几秒内就影响了你的短期兴趣模型,并且反应到你下次的推荐中. 2.候选集实时变更. 在我设计的推荐系统中,候选集的概念是不同类型的待推荐给用户的视频库,一个用户并不能看到某个候选集的全部,而是能够看到经过匹配

基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现"数据驱动业务与运营"的重要举措.首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用. 引言 随着计算机网络技术的不断发展,"数据即资源"的大数据时代已经来临.用户画像是电信运营商为了避免管道化风险,实现"数据驱动业务与运营"的重要举措.用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签