《推荐系统:技术、评估及高效算法》一2.1 简介

2.1 简介

推荐系统典型地运用了其他相邻领域的技术和方法,如人机交互和信息检索。但是,大多数系统的核心算法都可以理解成数据挖掘技术的一个特例。
数据挖掘的过程一般由三个连续执行的步骤组成:数据预处理[59]、数据分析和结果解释(见图2.1)。我们将在2.2节中分析一些最重要的数据预处理方法。鉴于数据抽样、数据降维、距离函数在推荐系统中的意义及所担任的重要角色,我们将特别关注这些内容。从2.3节到2.5节,将总体介绍在推荐系统中最常使用的数据挖掘方法:分类、聚类、关联规则发现(图2.1详细显示了本章中包含的不同主题)。

本章不会完整回顾数据挖掘方法,而是强调数据挖掘算法在推荐系统领域中的影响,并概述已经成功应用的主要数据挖掘技术。感兴趣的读者可以进一步参考数据挖掘课本(见[28,73]),或参考贯穿全章的引文。

时间: 2024-09-18 15:53:52

《推荐系统:技术、评估及高效算法》一2.1 简介的相关文章

《推荐系统:技术、评估及高效算法》一1.5 应用与评价

1.5 应用与评价 推荐系统的研究着重放在实践和商业应用上.因为除了理论方面的贡献,这方面的研究一般旨在切实促进商业推荐系统的发展.因此,推荐系统的研究包括实现这些系统的实践方面.这些方面与推荐系统生命周期的不同阶段都相关,即系统设计.实现以及系统运行过程中的维护和改善. 系统设计阶段所需考虑的影响因素或许会影响算法的选择.第一个要考虑的因素--应用的领域是算法选择的主要影响因素.[72]提供了推荐系统的分类,并且对特定应用领域的推荐系统应用做了分类.基于这些特定的应用领域,我们为最普遍的推荐系

《推荐系统:技术、评估及高效算法》一导读

前 言 推荐系统是为用户推荐所需物品的软件工具和技术.提供的推荐旨在通过各种决策过程来支持用户,例如,买什么物品.听什么歌或者读什么新闻.推荐系统对于在线用户处理信息过载是一个非常有价值的方法,并成为电子商务领域最强大和流行的工具.因此,人们提出了各种各样的推荐技术,并在过去的10年中将其中很多方法成功地运用在商务领域. 推荐系统的发展需要多学科的支持,涉及来自各个领域的专家知识,如人工智能.人机交互.信息检索.数据挖掘.数据统计.自适应用户界面.决策支持系统.市场营销或消费者行为等.本书旨在基

《推荐系统:技术、评估及高效算法》一1.1 简介

1.1 简介 推荐系统(RS)是一种软件工具和技术方法,它可以向用户建议有用的物品[60,85,25],这种建议适用于多种决策过程,如购买什么物品.听什么音乐.在网上浏览什么新闻等."物品"是用来表示系统向用户推荐内容的总称.一个推荐系统通常专注于一个特定类型的物品(如CD或新闻),因此它的设计.图形用户界面以及用于生成建议的核心的推荐技术都是为特定类型的物品提供有用和有效的建议而定制的. 推荐系统主要针对的是那些缺乏足够的个人经验和能力的人,他们无法评估潜在的大量可供选择的物品,比如

《推荐系统:技术、评估及高效算法》一3.1 简介

3.1 简介 网络上和数字图书馆中,存在着大量而丰富的信息,由于它们的动态性和多样性,很难快速找出我们想要的或最能满足我们需求的东西. 因此,用户建模和个人资料访问的作用变得越来越重要:根据喜好和品位,用户需要个性化的支持来从大量信息中筛选出可用信息. 大量的信息来源显示,推荐系统是能够满足用户个性化需求的一种方式[73].推荐系统在巨大的可能选择范围内引导用户发现感兴趣的或有用的个性化推荐结果[17].推荐算法把用户的兴趣作为输入来产生一个推荐列表.亚马逊的推荐算法用于为每个用户定制一个网上商

《推荐系统:技术、评估及高效算法》一2.3 分类

2.3 分类 分类器是从特征空间到标签空间的映射,其中特征代表需要分类的元素的属性,标签代表类别.例如,餐厅推荐系统能够通过分类器来实现,其分类器基于许多特征描述把餐厅分成两类中的一类(好的,不好的). 有许多种类型的分类器,但是一般情况下我们谈的有监督分类器和无监督分类器.在有监督分类器中,我们预先知道一组标签或是类别,并且我们有一组带有标签的数据,用来组成训练集.在无监督分类中,类别都是提前未知的,其任务是恰当地组织好我们手中的元素(按照一些规则).在本节中我们描述几个算法来学习有监督分类,

《推荐系统:技术、评估及高效算法》一3.4 趋势和未来研究

3.4 趋势和未来研究 3.4.1 推荐过程中用户产生内容的作用 Web 2.0是一个描述万维网技术趋势的术语,万维网的目标是促进用户之间的信息共享和协作.按照Tim O'Reilly http://radar.oreilly.com/archives/2006/12/web-20-compact.html,Accessed on March 18,2009说法,术语Web2.0的意思是以用户为中心,设计用户产生内容的软件,因为其内容是由成千上万用户所贡献的,如Flickr,Wikipedi

《推荐系统:技术、评估及高效算法》一3.3 基于内容的推荐系统的现状

3.3 基于内容的推荐系统的现状 顾名思义,基于内容的推荐是利用物品的内容数据来预测它和用户个人信息的相关性.基于内容的推荐系统的研究涉及计算机科学的许多方面,尤其是在信息检索[6]和人工智能领域. 在信息检索领域,推荐技术研究的想象力来自将用户搜索推荐结果看作一个信息检索的过程.在信息检索系统中,用户需要给出一次性查询信息(经常是一个关键词列表),而在信息过滤系统,用户的信息需求被表示成他的个人信息.由于用来描述物品的属性在数量和类型上的差异,待推荐物品也会有较大差异.每个物品当然可以用一组已

《推荐系统:技术、评估及高效算法》一2.5 关联规则挖掘

2.5 关联规则挖掘 关联规则挖掘关注于规则的发现,其他能够根据事务中出现其他物品来预测出现某个物品.两个物品被发现相关只意味着共同出现,但是没有因果关系.注意不要将这种技术与在2.3.3节中提到的基于规则的分类混淆. 我们定义物品集为一个或多个物品的集合(例如,(牛奶,啤酒,尿布)).k-物品集是包含k个物品的集合.给定物品的频繁度称为支持量(比如,(牛奶,啤酒,尿布)=131).并且物品集的支持度是包含它的事务的比例(例如,(牛奶,啤酒,尿布)=0.12).频繁物品集是支持度大于或等于最小支

《推荐系统:技术、评估及高效算法》一1.8 出现的问题和挑战

1.8 出现的问题和挑战 1.8.1 本书对出现的问题的讨论 从前面的讨论可以很明显地看出,推荐系统的研究正在向众多不同的方向发展,同时新的主题不断出现,或者正成为更重要的研究课题.读者也可以参考最近的ACM RecSys会议资料,参考其他优秀的论文,将其作为额外的研究素材[7,3].本手册中涵盖许多这种话题.实际上,很多已经介绍过了,例如,上下文感知推荐(第7章):新的可视化技术(第17章):基于社区的个性化搜索(第18章):基于信任的推荐系统(第20章).其他一些重要的话题在手册最后两部分,

《推荐系统:技术、评估及高效算法》一2.4 聚类分析

2.4 聚类分析 扩展CF分类器的最大问题是计算距离时的操作量,如发现最好的K近邻.如我们在2.2.3节中所看到那样,一种可能的解决方法是降维.但是,即使降低了特征维度,仍有许多对象要计算距离,这就是聚类算法的用武之地.基于内容的推荐系统也是这样,检索相似对象也需要计算距离.由于操作量的减少,聚类可以提高效率.但是,不像降维方法,它不太可能提高精确度.因此,在设计推荐系统时必须谨慎使用聚类,必须小心地衡量提高效率和降低精度之间的平衡. 聚类[41],也称为无监督的学习,分配物品到一个组中使得在同