推荐系统那点事 —— 什么是用户画像?

用户画像在大数据分析中是一种很有用的系统,它可以各种不同的系统中,起到很关键的作用。比如搜索引擎、推荐系统、内容系统等等,可以帮助应用实现千人千面、个性化、精准等的效果。

下面将从几个方面来说一下,什么是用户画像,主要的内容来自《用户网络行为画像分析与内容推荐应用》这本书。

  • 应用场景
  • 数据来源
  • 特性
  • 建模
  • 群体画像
  • 画像的存储
  • 画像的查询
  • 画像的更新

图片来自京东——想要购买可以点这里跳转

应用场景

下面举几个很典型的场景:

搜索引擎

在搜索的时候考虑用户的画像标签,返回用户感兴趣的内容。比如同一个关键字“诸葛亮”,王者荣耀的爱好者搜索的时候应该返回“诸葛亮”相关的内容,比如如何加铭文、如何五杀等等;而历史爱好者搜索的时候,应该返回三国相关的内容。

推荐系统

推荐系统可以根据用户的喜好和特征,也就是用户的画像,推荐相关的内容。比如,给一个用户定位的画像是美妆达人,那么就应该给她多推送一些面膜护肤之类的东西,而不是推一堆零食。

内容推荐

比如新闻类的产品或者读书类的产品,根据用户的喜好不同,展现不同的内容。

数据来源

用户画像的数据来源主要包括两个方面:

  • 属性数据,这部分数据一般是用户的注册信息,也可以是从其他数据中分析得出的。比如生日、性别、住址、爱好等
  • 行为数据,这部分数据一般都是用户的访问日志记录的行为数据。比如常用的一些后端日志数据、前端埋点数据等等。

通过这两部分的数据,就能刻画出用户的画像,其实就是给用户打上一个标签,比如高富帅、白富美等等。

特性

用户画像具有很明显的动态性时空局部性

  • 在用户的数据中,属性信息一般不会改变;但是行为数据是随时会发生变化的,比如用户看了一个新的电影、阅读了新的文章等。这时它的数据就是动态变化的,这部分数据应该动态的更新到用户的画像上。
  • 时间上,用户的一些需求是很快会发生变化的,比如最近下雨,用户想要买一把伞,如果几天后才捕捉到用户的需求,此时天都晴了;另一方面,空间上,用户在不同的领域喜好也不同,可能在新闻领域用户是一个严重的军事迷,但是在网购时,又是一个小清新,因此需要考虑到不同空间用户不同的需求场景,刻画对应的画像。

用户画像建模

用户的画像分为定量画像和定性画像,网上也没有找到这两种明确的定义。不过参考1的文章中是这样定义的:

  • 定性画像,是指在小规模的数据中分析出的用户的画像,比如问卷调查,访谈等等
  • 定量画像,是在大规模的数据中分析的,比如日志等

这一块的内容,理解的并不好....以后会多加补充

基于标签的画像

在用户的定性画像中,标签化是核心。即把用户的画像变成一个一个的标签,那么在考虑标签化的同时,需要注意下面的几个方面:

  • 如何定义标签?标签的名称、类别、取值
  • 如何解释标签?标签的语义描述
  • 如何推理标签?标签实现的过程
  • 如何验证标签?定义是否合理,推导是否合理

基于知识的画像(个人理解)

知识工程,在百科中的解释是:

“知识工程”的产生,把人类所专有的文化、科学、知识、思想等同现代机器联系起来,形成了人——机系统。

即需要领域专家(有经验的老业务)配合来做机器智能的分析。

知识工程的大体过程为:知识的获取-->验证-->表示-->推论-->解释和理由

在用户画像中,就是配合用户和物品的属性,建立对应关系,这部分的对应关系需要知识专家进行鉴别推理和构建。比如有一些“专家”会把电影分为几类,爱情片、动作片、科幻片、恐怖片,这些都是需要领域专家来设定的,而不是靠人工分层分类1分类2分类3...

构建的过程

在构建用户画像时,大致可以按照下面的步骤:

  • 构建领域词汇:不同的领域会有不同专业的词汇,描绘人的、电影的、书籍的词汇都是不同的。这部分可以参考其他同类的产品,如果是独创的领域,那么就需要这个领域资深的“玩家”来定义了。
  • 确定分类之间的层次:画像也是有层次的,比如电影的里面的人分为演员、导员、观众等。需要对标签(画像)归类处理。
  • 定义属性:为不同的画像定义属性,包括对象属性和数值属性。比如在电影的场景中,对象属性是上映的时间、导演,数值属性是观看量、时长等。
  • 定义实例:实例就是最终的画像,是由分类和属性组成的。
  • 定义约束:这个是描述一个物品的规则,比如电影是由(名称、类型、时长、导演、主演)等等属性组成的,那么任何一个电影都可以由这种方式来定义。

群体用户画像

用户画像是用来描述目标用户的画像,而群体画像则是对一类相似的用户的描述。比如成熟稳重型、可爱萝莉型等。

那么如何定义群体画像呢?可以按照下面的步骤:

  • 获取用户画像
  • 计算用户画像的相似度
  • 用户画像聚类
  • 群体用户画像生成

定义用户画像之间的相似度

计算用户画像之间的相似度,可以参考下面的公式:

其中wk表示第k个画像的权重,比如在电影里面,用户喜欢的电影类型比重要比电影的时长重要的多,在计算相似度的时候权重也应该更大一些。

计算相似度有很多中方法,比如:欧氏距离曼哈顿距离夹角余弦皮尔逊相关系数杰卡德距离等,每一种都有自己适合的场景。

画像聚类

画像聚类的方式有很多,比如K-means,原理就是随机几个点,看各个点的数据跟哪个点接近,就归为哪一类。然后不断调整中心点,达到最终聚合的效果。

用户画像存储

用户画像有很多中表示的方法,比如:

  • 关键词法,用一对的关键词描述画像,这种方式最容易理解
  • 评分矩阵法,用二维矩阵的方式,通过评分表示。这种在协同过滤中很常见
  • 向量空间表示法,这种是基于向量的方式描述画像
  • 本体表示法,不太懂

不同的表示方法,对于存储的方式来说,也会不同。

一般用户画像常用的存储引擎有:

  • 关系型数据库,通过中间表的方式存储用户和画像之间的关系,有点就是查询快、缺点就是数据量大的时候扛不住。
  • NoSql数据库,常见的就是键值数据库(Redis)列数据库(Hbase)文档数据库(mongodb)图数据库(neo4j)等,每种数据库都有自己适合的场景。
  • 数据仓库,数据仓库是一种面向主题的存储,可以更好的解决领域分析的问题。而且它保留了数据的时间变化,对于分析历史来说,非常有帮助。但是不适合实时查询。

用户画像的查询

用户画像的场景下:

  • 1 对于画像的查询要求是高并发、高聚合,比如会有很多人查询它自己的画像;也会通过一个画像属性,查询所有相关的人。
  • 2 在画像的查询中,大量的查询都是重复的,因此可以着重考虑缓存机制。

用户画像更新

在画像的更新方面,需要考虑的问题是:

  • 1 如何实时获取变化的画像?
  • 2 如何设置合适的更新触发条件?
  • 3 如何设计高效的算法?

对于获取用户的信息,可以把用户逇信息分为静态信息数据和动态信息数据,

更新的机制

  • 一种是设置更新的条件,比如购买达到1w元,立马升级成VIP标识
  • 一种是设置固定的时间周期,更新画像。这种最简单,直接没天凌晨跑一个画像的更新任务就行了。
  • 另一种是从增量的数据中计算画像,然后对比旧的数据,考虑是否更新用户的画像。

以上就是用户画像的基本内容,也是《用户网络行为画像分析与内容推荐应用》这本书的第一部分,后续会更新其他的部分。

参考

1 什么是定性画像、什么是定量画像?http://www.jianshu.com/p/3750d9349b71
2 《用户网络行为画像分析与内容推荐应用》想要电子版的私M。~

本文转自博客园xingoo的博客,原文链接:推荐系统那点事 —— 什么是用户画像?,如需转载请自行联系原博主。

时间: 2024-09-30 13:45:48

推荐系统那点事 —— 什么是用户画像?的相关文章

基于用户画像的实时异步化视频推荐系统

前言 这个月做的事情还是蛮多的.上线了一个百台规模的ES集群,还设计开发了一套实时推荐系统. 标题有点长,其实是为了突出该推荐系统的三个亮点,一个是实时,一个是基于用户画像去做的,一个是异步化. 实时主要体现在三个层面: 1.用户画像中的的短期兴趣模型实时构建. 也就是你看完一个视频,这个视频几秒内就影响了你的短期兴趣模型,并且反应到你下次的推荐中. 2.候选集实时变更. 在我设计的推荐系统中,候选集的概念是不同类型的待推荐给用户的视频库,一个用户并不能看到某个候选集的全部,而是能够看到经过匹配

基于 阿里云 RDS PostgreSQL 打造实时用户画像推荐系统

标签 PostgreSQL , 实时推荐系统 , 用户画像 , 标签 , TAG , 比特位 背景 用户画像在市场营销的应用重建中非常常见,已经不是什么新鲜的东西,比较流行的解决方案是给用户贴标签,根据标签的组合,圈出需要的用户. 通常画像系统会用到宽表,以及分布式的系统. 宽表的作用是存储标签,例如每列代表一个标签. 但实际上这种设计不一定是最优或唯一的设计,本文将以PostgreSQL数据库为基础,给大家讲解一下更加另类的设计思路,并且看看效率如何. 业务场景模拟 假设有一个2B的实时用户推

推荐系统那点事 —— 基于Spark MLlib的特征选择

在机器学习中,一般都会按照下面几个步骤:特征提取.数据预处理.特征选择.模型训练.检验优化.那么特征的选择就很关键了,一般模型最后效果的好坏往往都是跟特征的选择有关系的,因为模型本身的参数并没有太多优化的点,反而特征这边有时候多加一个或者少加一个,最终的结果都会差别很大. 在SparkMLlib中为我们提供了几种特征选择的方法,分别是VectorSlicer.RFormula和ChiSqSelector. 下面就介绍下这三个方法的使用,强烈推荐有时间的把参考的文献都阅读下,会有所收获! Vect

金融行业大数据用户画像实践

进入移动互联网时代之后,金融业务地域限制被打破.金融企业没有固定业务区域,金融服务面对所有用户是平的. 金融消费者逐渐年轻化,80.90后成为客户主力,他们的消费意识和金融意识正在增强.金融服务正在从以产品为中心,转向以消费者为中心.所有金融行业面对的最大挑战是消费者的消费行为和消费需求的转变,金融企业迫切需要为产品寻找目标客户和为客户定制产品. 一.用户画像背后的原因 1.金融消费行为的改变,企业无法接触到客户 80后.90后总计共有3.4亿人口,并日益成为金融企业主要的消费者,但是他们的金融

如何实现基于内容和用户画像的个性化推荐

基于内容和用户画像的个性化推荐,有两个实体:内容和用户.需要有一个联系这两者的东西,即为标签.内容转换为标签即为内容特征化,用户则称为用户特征化. 因此,对于此种推荐,主要分为以下几个关键部分: 标签库 内容特征化 用户特征化 隐语义推荐 综合上面讲述的各个部分即可实现一个基于内容和用户画像的个性化推荐系统.如下图所示: 标签库 标签是联系用户与物品.内容以及物品.内容之间的纽带,也是反应用户兴趣的重要数据源.标签库的最终用途在于对用户进行行为.属性标记.是将其他实体转换为计算机可以理解的语言关

大数据精准营销的关键“三部曲”及核心“用户画像”

大数据时代,实现精准营销并非无规律可循,关键三部曲,其中用户画像是核心: 第一步:知己,意味着知道自己产品的定位是什么,产品卖点是什么等等. 构建产品标签+内容标签. 第二步:知彼,简单的说就是清楚竞争对手的情况.清楚目标用户的情况. 构建用户标签,识别自身竞争力,选取切入点. 第三步:作战,对不同的对象采取不同的策略,直击痛点,实现转化. 序言 大数据时代下,企业如何驾驭数据,利用数据驱动.支持决策,是形成差异化竞争优势的关键所在.这听起来不错,但如何真正落地,是非常不容易的事,尤其是传统企业

看完这篇文章后,别再说自己不懂用户画像了

用户画像是一个挺新颖的词,最初它是大数据行业言必及之的时髦概念.现在我们运营谈及用户画像,它也是和精准营销.精细化运营直接钩挂的.这篇文章主要讲产品和运营角度的用户画像. 希望看完后,解决你一切关于用户画像的疑问. 什么是用户画像 用户画像一点也不神秘,它是根据用户在互联网留下的种种数据,主动或被动地收集,最后加工成一系列的标签.比如猜用户是男是女,哪里人,工资多少,有没有谈恋爱,喜欢什么,准备剁手购物吗? 我们常把用户标签和用户画像对等.但凡用户画像的文章,类似上文图片都会出现,有用烂的趋势.

明确的目标用户:用户画像的创建步骤

文章描述:在产品研发过程中,确定明确的目标用户至关重要.不同类型的用户往往有不同甚至相冲突的需求,我们不可能做出一个满足所有用户的产品. 在产品研发过程中,确定明确的目标用户至关重要.不同类型的用户往往有不同甚至相冲突的需求,我们不可能做出一个满足所有用户的产品. 为了让团队成员在研发过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上,Alan Cooper提出了Persona这一概念."赢在用户"这本书将其翻译为"人物角色",在腾讯我们习惯了使用"

HTAP数据库 PostgreSQL 场景与性能测试之 20 - (OLAP) 用户画像圈人场景 - 多个字段任意组合条件筛选与透视

标签 PostgreSQL , HTAP , OLTP , OLAP , 场景与性能测试 背景 PostgreSQL是一个历史悠久的数据库,历史可以追溯到1973年,最早由2014计算机图灵奖得主,关系数据库的鼻祖Michael_Stonebraker 操刀设计,PostgreSQL具备与Oracle类似的功能.性能.架构以及稳定性. PostgreSQL社区的贡献者众多,来自全球各个行业,历经数年,PostgreSQL 每年发布一个大版本,以持久的生命力和稳定性著称. 2017年10月,Pos