《推荐系统:技术、评估及高效算法》一3.2 基于内容的推荐系统的基础

3.2 基于内容的推荐系统的基础

基于内容的推荐系统通过分析一系列用户之前已评分物品的文档和(或)描述,从而基于用户已评分对象的特征建立模型或个人信息[63]。个人信息是用户兴趣的结构化描述,并且被应用在推荐新的感兴趣的物品中。推荐的主要处理过程是将用户个人信息的特征和内容对象的特征相匹配,结果就是用户对某个对象感兴趣程度的评价。如果这份个人信息准确地反映了用户的偏好,信息访问处理过程则能带来巨大的优势。例如,通过判断这个用户是否对指定网页感兴趣,以及在不感兴趣的情况下阻止显示,从而达到有效过滤搜索结果的效果。

3.2.1 基于内容的推荐系统的高层次结构

基于内容的信息过滤系统需要描述物品和生成用户个人信息的恰当技术,以及一些能够比较用户个人信息和物品描述的策略。一个基于内容的推荐系统的高层次结构如图3.1所示。推荐的过程有三个阶段,每一阶段都由独立的部件控制。

内容分析器:当信息没有结构化时(如文本),某些预处理阶段需要抽取相关的结构化信息。这个部件的主要功能就是将来自信息源的对象(如文档、网页、新闻、产品描述等)的内容表示成恰当的格式,以便于下一阶段的处理。数据对象经过特征抽取技术的分析,目的是将原始信息空间转换到想要的物品描述格式(如将网页表示成关键词向量)。这样的描述格式作为信息学习器和过滤组件的输入。

信息学习器:这个模块收集了有关用户偏好的数据特征,并试图去泛化这些数据,从而构建用户特征信息。泛化策略通常是通过机器学习技术实现的[61],它可以从用户过去喜欢的或不喜欢的物品中推断出一个用户的兴趣模型。例如,网页推荐的信息学习器可以实现相关的反馈方法[75],通过学习技术将正负样例向量组合到一个表示用户特征的模型向量中。训练样本是由用户提供的具有正负反馈的网页。

过滤组件:这个模块将用户个人信息和物品在表示空间进行匹配,利用用户个人信息来推荐相关物品。这个组件的结果是一个二元的或者连续型的相关性判断(使用某种相似度来计算[42]),后者能生成一个潜在感兴趣物品的排名清单。在上面提过的例子中,这种匹配是通过计算原型向量和物品向量的余弦相似度得到的。

推荐步骤的第一个阶段是由内容分析器完成的,它通常是借鉴了信息检索系统的技术[80,6]。来自信息源的物品描述经过内容分析器,从非结构化的文本中抽取特征(如关键词、n-grams、概念等),从而得到结构化的物品描述,并储存在被表示物品库中。

为了结构化和更新活跃用户ua(必须为其提供推荐的用户)的个人信息,该用户对物品的偏好反应是通过某些渠道收集并记录在反馈库中的。这些被称作注释[39]或反馈的相互作用和物品的相关描述一起被用在模型学习的过程中,这些信息对实际中预测新的相关物品的表示非常有用。因此,即使没有提供任何反馈,用户也可以清晰地定义他们自己感兴趣的领域作为初始的个人信息。

通常情况下,我们能够区分这两种类型的相关性反馈:正面的信息(用户喜欢的特征)和负面的信息(用户不感兴趣的特征[43])。

两种不同的技术都能用来记录用户的反馈。当系统要求用户明确评价物品时,这项技术通常称作“显式反馈”;反之,则称作“隐式反馈”,由于反馈来自监控和分析用户的行为,所以它不需要任何活跃用户的参与。

确切的评价能够表明用户对一个物品相关或感兴趣的程度[74]。主要有三种方式来得到显式的相关性反馈:

喜欢/不喜欢:利用一个简单的二元化评分刻度,将物品分成“相关的”或“不相关的”两大类,如[12]。

评分:经常用来评价物品的一个离散的数值刻度,详情参见文献[86]。当然,标记化的评价也可以映射到数值刻度,如在Syskill&Webert[70]中一样,把用户对网页的评价划分为热门、一般、冷门。

文本评论:收集并展示单一物品的评论给用户,使其成为用户加快决策过程的一种方式,详情参见文献[72]。例如,在Amazon或eBay上,用户的反馈可以帮助其他用户判断一件物品是否被大众所接受。文本评论是有益的,但是这些评论也会对用户造成负担,因为她必须阅读和理解每条评论,并决定哪些评论是正面的哪些是负面的,以及这些评论的程度。文献[71]从情感计算研究领域中提出的先进技术,使得基于内容的推荐系统能够自动执行这种分析。

即使数值/符号刻度的可采纳性会增加用户的认知负荷,而且也许不能完全得到用户对物品的评价,显式反馈仍然具有简单的优点。隐式反馈的方法是基于对用户在某样物品上的特定行为进行相关性评分赋值,如保存、删除、印刷、收藏等。这个方法的主要优点是不需要用户的直接参与,当然偏差是可能发生的,如在阅读的时候被电话打断。

为了建立活跃用户ua的个人信息,必须定义用户ua的训练集TRa。TRa是一个成对的〈Ik,rk〉的集合,其中rk是用户对物品描述Ik的评分。给定一组有评分的物品描述,信息学习器通过监督式学习算法生成一个预测模型——用户信息,用户信息通常存储在信息资源库里,并被之后的过滤组件所使用。给定一个新的物品描述,通过比较存储在用户信息资源库里的用户偏好和表述物品的特征,过滤组件将会预测活跃用户是否对它感兴趣。过滤组件通常会实现根据用户个人信息相关性的程度对潜在感兴趣物品进行排序的策略。排名靠前的物品会形成一个推荐列表La,并被推荐给用户ua。用户的品味通常时刻改变,因此必须维护最新的变更,并提供给信息学习器去自动更新用户个人信息。通过让用户表明对La中的物品满意与否,能从生成的推荐中收集到更深层次的反馈。在收集了这些反馈后,学习过程将在新的训练数据集上再次执行,并将学习的结果应用于生成用户的最新兴趣。随着时间的推移,“反馈—学习”的循环迭代使得该系统可以考虑到用户偏好的动态变化。

3.2.2 基于内容过滤的优缺点

基于内容的推荐与基于协同过滤的推荐相比有以下优点:
用户独立性:基于内容的推荐仅使用当前用户提供的评分来构建自己的个人信息。而协同过滤的方法需要其他用户的评分,来发现该用户最近的近邻,例如,由于对相同的物品评分相似而品味相似的用户。这时,只有当前用户最近邻很喜欢的物品才有可能推荐给当前用户。

透明度:通过显式地列出使得物品出现在推荐列表中的内容特征或描述,可以解释推荐系统是如何工作的。这些物品特征是决定是否信任该推荐的指标。相反,协同过滤系统是一个黑盒子,对一个推荐物品的唯一解释是相似品味的未知用户喜欢过该物品。

新物品:基于内容的推荐系统在没有任何用户评分的情况下也可以进行推荐。因此,新物品没有第一次评分会影响协同过滤推荐系统,因为协同过滤推荐系统仅依赖于用户的偏好产生推荐。所以只有当一个新物品被一系列用户评分之后,系统才可能推荐它。

尽管如此,基于内容的推荐系统也有以下一些缺点:
可分析的内容有限:基于内容的推荐技术有一个天然的限制,即与推荐对象相关的特征数量和类型上的限制,不管是自动还是手动的。领域知识一般是必需的,例如,对于电影推荐,系统需要知道电影的演员、导演,有时候领域本体也是需要的。当分析的物品内容信息不足以区分哪些物品是用户喜欢的、哪些物品是用户不喜欢的时候,没有任何基于内容的推荐系统可以给出合适的推荐。有些解释只能获取物品内容的某些方面,但是还有很多别的方面也能影响用户体验。举个例子,在玩笑或者诗词里,没有足够的词频信息去为用户兴趣建模,这时,情感计算的技术就会更适用。此外,对于网页来说,文本特征抽取技术完全忽略其美学特征和附加的多媒体信息。

总之,不论是手动还是自动为物品分配特征,都不足以定义物品不同的特点,而这些特点被证明对提取出用户兴趣是必要的。

过度特化:基于内容的推荐在本质上无法发现一些出人意料的物品。系统建议的物品和用户的个人信息高度匹配的时候,给用户的推荐也将会是与已有的评分物品相似的物品。这个缺点主要是由于基于内容的系统产生的推荐物品在新颖性上的缺陷,称作惊喜度问题。举例来说,当一个用户只评价了Stanley Kubrick导演的电影,那么她得到的推荐就只有这种类型的电影。一个“完美”的基于内容的技术可能很少发现任何新颖的东西,这限制了使用它的应用程序的范围。

新用户:在一个基于内容的推荐系统可以真正理解用户偏好且给出准确的推荐之前,需要收集足够的评分。因此,当只有很少的评分可用的时候,即对于新用户来说,系统不能提供可靠的推荐。

接下来,将就采用何种策略来处理对上面提出的问题,进行介绍和讨论。更具体地,会阐述利用常识和特定领域的知识来提高内容解释的新技术(3.3.1.3节~3.3.1.4节)。通过提供新的特征可能有助于克服传统的内容分析方式的限制,如WordNet[60,32]或Wikipedia概念,帮助物品用一种更准确透明的方式进行推荐。此外,将推荐过程中用户定义词典,如大众分类,作为扩展词表加入考虑并进行整合的过程,将在3.4.1节进行介绍。

使用惊喜度推荐,即新颖性很高的用户感兴趣的物品,来满足用户的可能方式将作为解决过度特化问题的解决方案进行分析(3.4.2节)。

最后,将会介绍克服新用户问题的各种不同策略。其中,当在特定用户的评分很少或者没有的情况下推荐时,社区用户所提供的社交标签可以作为推荐的反馈应用到系统中(3.4.1.1节)。

时间: 2024-09-05 08:52:00

《推荐系统:技术、评估及高效算法》一3.2 基于内容的推荐系统的基础的相关文章

《推荐系统:技术、评估及高效算法》一3.4 趋势和未来研究

3.4 趋势和未来研究 3.4.1 推荐过程中用户产生内容的作用 Web 2.0是一个描述万维网技术趋势的术语,万维网的目标是促进用户之间的信息共享和协作.按照Tim O'Reilly http://radar.oreilly.com/archives/2006/12/web-20-compact.html,Accessed on March 18,2009说法,术语Web2.0的意思是以用户为中心,设计用户产生内容的软件,因为其内容是由成千上万用户所贡献的,如Flickr,Wikipedi

《推荐系统:技术、评估及高效算法》一2.4 聚类分析

2.4 聚类分析 扩展CF分类器的最大问题是计算距离时的操作量,如发现最好的K近邻.如我们在2.2.3节中所看到那样,一种可能的解决方法是降维.但是,即使降低了特征维度,仍有许多对象要计算距离,这就是聚类算法的用武之地.基于内容的推荐系统也是这样,检索相似对象也需要计算距离.由于操作量的减少,聚类可以提高效率.但是,不像降维方法,它不太可能提高精确度.因此,在设计推荐系统时必须谨慎使用聚类,必须小心地衡量提高效率和降低精度之间的平衡. 聚类[41],也称为无监督的学习,分配物品到一个组中使得在同

《推荐系统:技术、评估及高效算法》一2.3 分类

2.3 分类 分类器是从特征空间到标签空间的映射,其中特征代表需要分类的元素的属性,标签代表类别.例如,餐厅推荐系统能够通过分类器来实现,其分类器基于许多特征描述把餐厅分成两类中的一类(好的,不好的). 有许多种类型的分类器,但是一般情况下我们谈的有监督分类器和无监督分类器.在有监督分类器中,我们预先知道一组标签或是类别,并且我们有一组带有标签的数据,用来组成训练集.在无监督分类中,类别都是提前未知的,其任务是恰当地组织好我们手中的元素(按照一些规则).在本节中我们描述几个算法来学习有监督分类,

《推荐系统:技术、评估及高效算法》一3.3 基于内容的推荐系统的现状

3.3 基于内容的推荐系统的现状 顾名思义,基于内容的推荐是利用物品的内容数据来预测它和用户个人信息的相关性.基于内容的推荐系统的研究涉及计算机科学的许多方面,尤其是在信息检索[6]和人工智能领域. 在信息检索领域,推荐技术研究的想象力来自将用户搜索推荐结果看作一个信息检索的过程.在信息检索系统中,用户需要给出一次性查询信息(经常是一个关键词列表),而在信息过滤系统,用户的信息需求被表示成他的个人信息.由于用来描述物品的属性在数量和类型上的差异,待推荐物品也会有较大差异.每个物品当然可以用一组已

《推荐系统:技术、评估及高效算法》一导读

前 言 推荐系统是为用户推荐所需物品的软件工具和技术.提供的推荐旨在通过各种决策过程来支持用户,例如,买什么物品.听什么歌或者读什么新闻.推荐系统对于在线用户处理信息过载是一个非常有价值的方法,并成为电子商务领域最强大和流行的工具.因此,人们提出了各种各样的推荐技术,并在过去的10年中将其中很多方法成功地运用在商务领域. 推荐系统的发展需要多学科的支持,涉及来自各个领域的专家知识,如人工智能.人机交互.信息检索.数据挖掘.数据统计.自适应用户界面.决策支持系统.市场营销或消费者行为等.本书旨在基

《推荐系统:技术、评估及高效算法》一1.1 简介

1.1 简介 推荐系统(RS)是一种软件工具和技术方法,它可以向用户建议有用的物品[60,85,25],这种建议适用于多种决策过程,如购买什么物品.听什么音乐.在网上浏览什么新闻等."物品"是用来表示系统向用户推荐内容的总称.一个推荐系统通常专注于一个特定类型的物品(如CD或新闻),因此它的设计.图形用户界面以及用于生成建议的核心的推荐技术都是为特定类型的物品提供有用和有效的建议而定制的. 推荐系统主要针对的是那些缺乏足够的个人经验和能力的人,他们无法评估潜在的大量可供选择的物品,比如

《推荐系统:技术、评估及高效算法》一2.6 总结

2.6 总结 本章介绍了在设计推荐系统中可能用到的主要的数据挖掘方法和技术.我们也总结了在文献中提到的用法,提供了如何以及在哪用到它们一些粗略指导. 我们从综述在预处理步骤可能用到的技术开始.首先,2.2.1节回顾了如何选择合适的距离衡量指标.在后面的步骤中大部分的方法需要它.余弦相似度和皮尔逊相关度是一般可接受最好的选择.尽管付出了许多的努力来提高这些距离指标,但是最近的工作似乎表明距离函数的选择不是这么重要.然后,在2.2.2节回顾了最基础的抽样,其应用是为了选择原始大数据集的子集,或者是划

《推荐系统:技术、评估及高效算法》一3.1 简介

3.1 简介 网络上和数字图书馆中,存在着大量而丰富的信息,由于它们的动态性和多样性,很难快速找出我们想要的或最能满足我们需求的东西. 因此,用户建模和个人资料访问的作用变得越来越重要:根据喜好和品位,用户需要个性化的支持来从大量信息中筛选出可用信息. 大量的信息来源显示,推荐系统是能够满足用户个性化需求的一种方式[73].推荐系统在巨大的可能选择范围内引导用户发现感兴趣的或有用的个性化推荐结果[17].推荐算法把用户的兴趣作为输入来产生一个推荐列表.亚马逊的推荐算法用于为每个用户定制一个网上商

《推荐系统:技术、评估及高效算法》一第3章Recommender Systems Handbook基于内容的推荐系统:前沿和趋势

第3章Recommender Systems Handbook基于内容的推荐系统:前沿和趋势 Pasquale Lops.Marco de Gemmis和Giovanni Semeraro Pasquale Lops,Department of Computer Science,University of Bari"Aldo Moro",Via E.Orabona,4,Bari(Italy) e-mail:lops@di.uniba.itMarco de Gemmis,Departme