《推荐系统:技术、评估及高效算法》一1.1 简介

1.1 简介

推荐系统(RS)是一种软件工具和技术方法,它可以向用户建议有用的物品[60,85,25],这种建议适用于多种决策过程,如购买什么物品、听什么音乐、在网上浏览什么新闻等。
“物品”是用来表示系统向用户推荐内容的总称。一个推荐系统通常专注于一个特定类型的物品(如CD或新闻),因此它的设计、图形用户界面以及用于生成建议的核心的推荐技术都是为特定类型的物品提供有用和有效的建议而定制的。

推荐系统主要针对的是那些缺乏足够的个人经验和能力的人,他们无法评估潜在的大量可供选择的物品,比如,某个网站提供的商品[85]。一个典型的例子是图书推荐系统,它帮助用户挑选一本书来读。在亚马逊,网站采用个性化推荐系统为每个客户进行推荐[47]。由于推荐通常是个性化的,不同的用户或用户组接收的建议是不同的。当然也存在非个性化推荐。它们都是非常简单的,通常出现在报纸或杂志上。典型的例子包括书籍和CD等的top 10推荐(最热销的前10名)。虽然在某些情况下它们可能是有用和有效的,但这些类型的非个性化推荐通常不是推荐系统研究要解决的问题。
个性化推荐最简单的形式是提供一个排好序的物品列表。通过这个排序列表,推荐系统试图根据用户的偏好和其他约束条件来预测最合适的产品或服务。为了完成这样的计算任务,推荐系统收集用户的喜好,这种喜好是显式的,如为产品打分,或通过解释用户的行为做出推断。例如,推荐系统可能会把访问某个特定商品详情页的行为作为该用户喜爱这个主页上的商品的隐式信号。

推荐系统的发展源于一个很简单的现象:人们在做日常工作和日常决策时总是依赖于其他人提供的建议[60,70]。例如,要选择一本书的时候,通常依靠朋友的推荐;雇主依靠推荐信做招聘的决定;当选择观看的影片时,人们倾向于阅读并且依赖影评家写在报纸上的影评。
为了模拟这种行为,第一个推荐系统通过算法将社区用户的建议推荐给一个活跃用户,也就是在寻找推荐的用户。推荐的物品是这些相似用户(那些品味相似的用户)喜欢的。这种方法称为协同过滤,它的理论依据是,如果这个活跃的用户以前与一些用户有相似爱好,那么来自这些相似用户的其他推荐应该是相关的,这些推荐也是此活跃用户感兴趣的。
随着电子商务网站的发展,迫切需要出现一种能过滤所有可用的替代品的推荐系统。让用户从这样纷繁复杂的物品(产品和服务)中作出最恰当的选择是非常困难的。

互联网信息的爆炸式增长和种类的纷繁复杂以及新兴电子商务服务(购买产品、产品比较、拍卖等)的出现经常压得用户喘不过气来,导致用户无所适从。这种选择多样性不但没有产生经济效益,反而降低了用户满意度。大家都明白可选择是好的,但是太多的选择就不是很好了。实际上,随着选择对自由、自治和自我决定带来的影响变得过度,我们就会因为选择而觉得自由是一件痛苦的事情[96]。

近年来,推荐系统被证明是一种解决信息过载问题的有效工具。从根本上来讲,推荐系统是通过为用户指引该用户不熟悉的新物品来解决信息过载现象的,这些新物品或许与该用户当前的需求相关。对于用户每一个清晰表达的请求,根据不同的推荐方法和用户所处的环境和需求,推荐系统利用存储在自定义数据库的关于用户、可用物品以及先前交易的数据和各种类型的其他知识产生推荐内容。然后用户可以浏览推荐的内容。用户可能接受也可能不接受推荐,也可能马上或者过一段时间提供隐式或者显式的反馈。所有这些用户的行为和反馈可以存储在推荐数据库,并且可用于在下一次用户和系统相互作用时产生新的推荐。

如上所述,相比于其他经典的信息系统的工具和技术(如数据库或搜索引擎),推荐系统的研究是相对较新的。在20世纪90年代中期,推荐系统成为一个独立的研究领域[35,60,70,7]。近年来,下面的事实说明人们对推荐系统的兴趣大大增加:

对于一些有很高评价的网站,如Amazon.com、YouTube、Netflix、Yahoo!、Tripadvisor、Last.fm和IMDb,推荐系统扮演了重要的角色。此外,许多媒体公司正在开发和部署推荐系统作为它们提供给用户的服务的一部分。例如,Netflix(一家提供在线电影租赁服务的网站)向第一个能够成功地显著提高推荐系统性能的团队奖励了100万美元[54]。

本领域有专门的正式会议和相关的专题研讨会。在这里专指ACM推荐系统会议(RecSys),该会议成立于2007年,现在是新的推荐技术的研究和应用的顶级年度盛会。此外,像数据库、信息系统和自适应系统领域等更传统的大会也经常会包括以推荐系统为主题的会议。在这些会议中,值得一提的是ACM SIGIR(Special Interest Group on Information Retrieval)、UMAP(User Modeling,Adaptation and Personalization)和ACM SIGMOD(Special Interest Group on Management Of Data)。

世界各地的高等教育机构在本科生和研究生的课程中已经提供专门研究推荐系统的课程;在计算机科学会议中关于推荐系统的专题报告也引起了人们的极大关注;最近一本介绍推荐系统技术的书也已经出版[48]。

在学术期刊中,已经有一些特刊专题涵盖推荐系统领域的研究和发展。期刊中包括推荐系统专刊的有:《AI Communications》(2008)、《IEEE Intelligent Systems》(2007)、《International Journal of Electronic Commerce》(2006)、《International Journal of Computer Science and Applications》(2006)、《ACM Transactions on Computer-Human Interaction》(2005)和《ACM Transactions on Information Systems》(2004)。

本章简要介绍了推荐系统的基本思想和概念。主要目标并不是对推荐系统给出包罗万象的综合介绍和概览,而是用一个连贯和结构化的方式描述这本手册的章节内容,以此帮助读者理解这本手册提供的极其丰富和详细的内容。
本书分成五部分:推荐相关技术、推荐系统的应用和评价、推荐系统的交互、推荐系统和社区、主流算法。

第一部分介绍当前构建推荐系统最普遍使用的技术,例如,协同过滤、基于内容的数据挖掘的方法和上下文相关的方法。

第二部分概述了已用于评价推荐质量的技术和方法。这一部分还涉及推荐系统设计与实践方面;描述设计和实施推荐系统的注意事项;为选择更合适的算法提供准则。这部分还考虑到可能影响推荐系统设计(域、设备、用户等)的方面。最后是评估开发的推荐系统所用的方法、挑战和评测指标。

第三部分包括一些涉及推荐系统如何呈现、浏览、解释和可视化等若干问题的论文。这里讨论的技术使推荐过程更加结构化以及具有可交互性。

第四部分讨论的是一个相当新颖的话题,利用各类用户生成内容(UGC,如标签、搜索查询、信任评价等)来产生类型新颖且更可信的推荐结果。尽管这个话题相对新颖,但它实质上根植于基于协同推荐的核心理念。

第五部分展示了关于几个高级课题的论文,例如,探索如何用主动学习的原则来指导新知识的获取;防止推荐系统受恶意用户攻击的合适技术;如何整合多种类型的用户反馈以及用户偏好信息来构造更可靠的推荐系统。

时间: 2024-07-30 22:31:09

《推荐系统:技术、评估及高效算法》一1.1 简介的相关文章

《分布式系统:概念与设计》一第3节 练习

前 言 在互联网和Web持续发展并且对我们社会的每个方面都产生影响的时候,这本教材的第5版问世了.本书的介绍性章节提到互联网和Web对诸多(如金融.商业.艺术.娱乐等)应用领域的影响以及对信息社会的普遍影响.它还强调了诸如Web搜索和多人在线游戏等应用领域中的需求.从分布式系统的角度出发,这些开发在应用的范围.多个现代系统所支持的工作负载和系统大小等方面正在对底层系统架构提出实质性的新需求.重要的趋势包括网络技术上不断增加的多样性和普遍性(包括不断增加的无线网络的重要性).移动和无处不在计算元素

《分布式系统:概念与设计》一1.2 分布式系统的例子

1.2 分布式系统的例子 本节给出能激发读者学习积极性的当代分布式系统的例子,用于说明分布式系统所扮演的无处不在的角色和相关应用的多样性. 如1.1节所提及的那样,网络无处不在,成为我们现在认为理所当然的日常服务(互联网和相关的万维网.Web搜索.在线游戏.电子邮件.社会网络.电子商务,等等)的基础.为了进一步说明这一点,可参考图1-1,它描述了一系列所选的关键商务或社会应用部门,强调了相关的分布式系统技术已公认或新出现的应用. 正如所看到的,分布式系统包含近些年许多最重要的技术发展,因此理解底

《PADS 9.5电路设计与仿真从入门到精通》——第一章 绪论 1.1 PCB的基本概念及设计工具

第一章 绪论 PADS 9.5电路设计与仿真从入门到精通 本章主要介绍PADS的基本概念及特点,包括PCB设计的一般原则.基本步骤.标准规范等.着重介绍了美国Mentor Graphics公司的PCB设计软件:PADS 9.5,包括了PADS 9.5的发展过程以及它的新特点.PADS 9.5是一款非常优秀的PCB设计软件,它具有完整强大的PCB绘制工具,界面和操作十分简洁,希望用户好好学习本书,以便更加方便地使用PADS 9.5软件. 1.1 PCB的基本概念及设计工具 PADS 9.5电路设计

《分布式系统:概念与设计》一3.1 简介

3.1 简介 要构建分布式系统所使用的网络,首先需要众多的传输介质,包括电线.电缆.光纤以及无线频道:然后需要一些硬件设备,包括路由器.交换机.网桥.集线器.转发器和网络接口:最后还需要软件组件,包括协议栈.通信处理器和驱动器.上述因素都会影响分布式系统和应用程序所能达到的最终功能和性能.我们把为分布式系统提供通信设施的软硬件组件称为通信子系统.计算机和其他使用网络进行通信的设备称为主机.结点则指的是在网络上的所有计算机或者交换设备.互联网是一个通信子系统,它为所有接入的主机提供通信服务.互联网

《分布式系统:概念与设计》一1.1 简介

1.1 简介 计算机网络无处不在.互联网也是其中之一,因为它是由许多种网络组成的.移动电话网.协作网.企业网.校园网.家庭网.车内网,所有这些,既可单独使用,又可相互结合,它们具有相同的本质特征,这些特征使得它们可以放在分布式系统的主题下来研究.本书旨在解释影响系统设计者和实现者的连网的计算机的特征,给出已有的可帮助完成设计和实现分布式系统任务的主要概念和技术.我们把分布式系统定义成一个其硬件或软件组件分布在连网的计算机上,组件之间通过传递消息进行通信和动作协调的系统.这个简单的定义覆盖了所有可

《分布式系统:概念与设计》一2.1 简介

2.1 简介 打算在实际环境中使用的系统应该在各种可能的环境下,面对各种困难和潜在的威胁(后面的"分布式系统的困难和威胁"部分将给出一些例子)时,保证其功能的正确性.第1章的讨论和例子表明不同类型的分布式系统共享重要的基本特性,也出现了公共的设计问题.本章以描述性模型的形式给出分布式系统的公共特性和设计问题.每类模型试图对分布式系统设计的一个相关方面给出抽象.简化但一致的描述.物理模型是描述系统的一个最显式的方法,它从计算机(和其他设备,例如移动电话)及其互联的网络方面考虑系统的硬件组

《分布式系统:概念与设计》一练习

练习 1.1 列出能被共享的五种类型的硬件资源和五种类型的数据或软件资源,并举出它们在实际的分布式系统中发生共享的例子. 1.2 在不参考外部时间源的情况下,通过本地网络连接的两台计算机的时钟如何同步?什么因素限制了你描述的过程的准确性?由互联网连接的大量的计算机的时钟是如何同步的?讨论该过程的准确性. 1.3 考虑1.2.2节讨论的大型多人在线游戏的实现策略.采用单一服务器方法表示多个玩家游戏状态的好处是什么?这存在什么问题以及如何解决? 1.4 一个用户随身携带可以无线连网的PDA,来到一个

《分布式系统:概念与设计》一2.3.1 体系结构元素

2.3.1 体系结构元素 为了理解一个分布式系统的基础构建块,有必要考虑下面四个关键问题: 在分布式系统中进行通信的实体是什么? 它们如何通信,特别是使用什么通信范型? 它们在整个体系结构中扮演什么(可能改变的)角色,承担什么责任? 它们怎样被映射到物理分布式基础设施上(它们被放置在哪里)? 通信实体 上述前两个问题是理解分布式系统的关键:什么是通信和这些实体如何相互通信为分布式系统开发者定义了一个丰富的设计空间.它对从面向系统和面向问题的角度解决第一个问题是有帮助的. 从系统的观点,回答通常是

《分布式系统:概念与设计》一2.4.1 交互模型

2.4.1 交互模型 2.3节对系统体系结构的讨论表明分布式系统由多个以复杂方式进行交互的进程组成.例如: 多个服务器进程能相互协作提供服务,前面提到的例子有域名服务(它将数据分区并复制到互联网中的服务器上)和Sun的网络信息服务(它在局域网的几个服务器上保存口令文件的复制版本). 对等进程能相互协作获得一个共同的目标.例如,一个语音会议系统,它以类似的方式分布音频数据流,但它有严格的实时限制. 大多数程序员非常熟悉算法的概念--采取一系列步骤以执行期望的计算.简单的程序由算法控制,算法中的每一

《分布式系统:概念与设计》一第2章 系统模型

第2章 系统模型 本章提供三个重要且互补的解释方法,以便有效地描述和讨论分布式系统的设计:物理模型考虑组成系统的计算机和设备的类型以及它们的互连,不涉及特定的技术细节.体系结构模型是从系统的计算元素执行的计算和通信任务方面来描述系统:这里计算元素或是指单个计算机或是指通过网络互连的计算机集合.客户-服务器和对等模型是分布式系统中的两种最常使用的体系结构模型.基础模型采用抽象的观点描述大多数分布式系统面临的单个问题的解决方案.在分布式系统中没有全局时间,所以不同计算机上的时钟未必给出相同的时间.进