少数人的智慧

郑昀@玩聚SR 20091105

一、冷启动

Greg Linden针对最新的一篇论文:"The Wisdom of the Few: A Collaborative Filtering Approach Based on Expert Opinions from the Web" (PDF,即《少数人的智慧:基于网络专家意见的协同过滤研究》) 做了如下点评

What they do say is that using a very small pool of experts works surprisingly well.

论文说的是,用很小一个专家池,推荐效果惊人地好。

In particular, I think it suggests a good alternative to content-based methods for bootstrapping a recommender system.

我认为它为一个推荐系统的自启动指出了一个很好的替代选择。

If you can create a high quality pool of experts, even a fairly small one, you may have good results starting with that while you work to gather ratings from the broader community.

即,选择一个高质量专家池,可以是你组建的团队,也可以是你选中的专家群,即使是相当小的一个群体,你的推荐系统也会有一个非常好的开端。少数人的智慧,此时此刻,可以解决推荐系统的冷启动问题。这也是玩聚SR最开始选择Experts Pool作为起源,一上来就有很好信息过滤器效果的原因。

 

二、论文的摘要:

为了方便理解,下面意译一下该论文:

最近邻协同过滤(Nearest-neighbor collaborative filtering)是一个很有效的推荐方法。但它总受困于这几个问题:

数据稀疏和噪音;冷启动问题(cold-start);可扩展性问题。

所以论文作者提出一个新方法,一个传统协同过滤方法的变种:

并不是对用户打分数据(User-rating data)实施最近邻算法,而是用一个专家邻居(expert neighbors)集合作为比对样本,去计算这批人与目标用户的相似度。

这个方法至少没有太大可扩展性问题,相当于缩小了比对的基准集合。最近邻原方法可近似理解为做两两比对,计算肯定花时间,而且当新用户(尤其是某某观光团的到来会让数据噪音多得一塌糊涂)比比皆是时,没有几条数据能够让你进行相似性计算。

 

作者定义专家为,在给定领域,能够产生思虑周全的、始终如一的和可靠的评估(评分)、我们可信任的独立个体。

(原文:

We define an expert as an individual that we can
trust to have produced thoughtful, consistent and reliable
evaluations (ratings) of items in a given domain.

 

我们比较关注论文作者们的以下两个探讨问题的角度:

(a) study how preferences of a large population can be pre-
dicted by using a very small set of users;

研究用一小群用户去预测海量用户到底有多大的可参考价值;

(c) analyze whether professional raters are good predictors for general users;

 

如果这几个角度是可行的话,那么实际上并不需要拿到一个海量用户社区的所有数据,只要锁定Experts Pool即可为用户进行推荐。

 

附录:

Greg Linden在被封的BlogSpot的原文如下:

Wednesday, November 04, 2009

Using only experts for recommendations

A recent paper from SIGIR, "The Wisdom of the Few: A Collaborative Filtering Approach Based on Expert Opinions from the Web" (PDF), has a very useful exploration into the effectiveness of recommendations using only a small pool of trusted experts.
The results suggest that using a small pool of a couple hundred experts, possibly your own experts or experts selected and mined from the web, has quite a bit of value, especially in cases where big data from a large community is unavailable.
A brief excerpt from the paper:

Recommending items to users based on expert opinions .... addresses some of the shortcomings of traditional CF: data sparsity, scalability, noise in user feedback, privacy, and the cold-start problem .... [Our] method's performance is comparable to traditional CF algorithms, even when using an extremely small expert set .... [of] 169 experts.
Our approach requires obtaining a set of ... experts ... [We] crawled the Rotten Tomatoes web site –- which aggregates the opinions of movie critics from various media sources -- to obtain expert ratings of the movies in the Netflix data set.

The authors certainly do not claim that using a small pool of experts is better than traditional collaborative filtering.
What they do say is that using a very small pool of experts works surprisingly well. In particular, I think it suggests a good alternative to content-based methods for bootstrapping a recommender system. If you can create a high quality pool of experts, even a fairly small one, you may have good results starting with that while you work to gather ratings from the broader community.

 

时间: 2024-09-08 14:58:01

少数人的智慧的相关文章

期待一个属于所有人的智慧城市!

美国俄亥俄州首府哥伦布的智慧城市计画正准备展开,包含为改善交通而设计的自动驾驶车辆.智慧交通号志,以及推广个人运输服务如Uber.Car2Go还有另一个新的共乘专案. 工程社群若有远大理想.设计能让普罗大众受惠的技术,会需要一个村庄──或是一个城市──来探索.实作并试验那些伟大的想法.美国俄亥俄州的哥伦布(Columbus, Ohio)就是这样的一座城市. 哥伦布击败了其他六座竞争城市──旧金山(San Francisco).奥斯汀(Austin).波特兰(Portland).堪萨斯城(Kans

IBM林世伟:智慧属于人,不属于机器!

IBM软体事业处http://www.aliyun.com/zixun/aggregation/34599.html">副总经理林世伟 Big Data的关键是人,而非系统!因为,真正拥有智慧的是接着做出判断的决策者,不是产出这些资讯的机器. 我们在谈「智慧的地球」.「智慧的城市」,那么「智慧」是什么?难道以前的人没有智慧吗?透过经验及知识,去分析判断一件事情未来的趋势或风险,比别人知道得早一点,就是「有智慧」. 以人为出发点是Big Data发展一个很大的重点.机器可以很快很有效率地搜集

[转载]Flash为客户端的多人网络游戏的实现

多人网络游戏的实现 项目开发的基本硬件配置 一台普通的pc就可以了, 安装好windows 2000和vc6就可以了, 然后连上网,局域网和internet都可以, 接下去的东西我都简化,不去用晦涩的术语, 既然是网络,我们就需要网络编程接口, 服务器端我们用的是winsock 1.1,使用tcp连接方式, [tcp和udp]tcp可以理解为一条连接两个端子的隧道,提供可靠的数据传输服务, 只要发送信息的一方成功的调用了tcp的发送函数发送一段数据, 我们可以认为接收方在若干时间以后一定会接收到

TalkingData 崔晓波:信仰数据的人做的决策才是数据驱动的

一年一度的 TalkingData 智能数据峰会,已经成为 TalkingData 向世界展示其真知灼见的最佳窗口. 雷锋网了解到,如今,所有企业无一例外的面临着数字化转型带来的挑战和机遇,而 TalkingData 的多年前通过为移动互联网开发者提供 SaaS 经营分析服务起家,从数据的采集.处理到数据的分析,再到数据的应用与咨询,已经形成了一套以"智能数据平台(SmartDP)"为主的完整数据应用体系,构筑了一套以数据商业化平台.数据服务平台,及数据合作平台为核心的数据生态. Ta

那些阿里人写过的书

注:本文资料整理自天猫,作者身份与职务来自出版社标注信息,可能与目前实际不符,请注意! 技术类: 1.Storm 实战 作者:商家数据业务部, 隶属于阿里巴巴集团数据平台事业部. 出版时间:2014-08-01 内容简介:     随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用.阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之一.     <Storm实战:构建大数据实时计算 >是一本系统并且具有实践指导意义

常见的各种人提出的理论

  1.威廉·大内的Z理论(1981)   Z理论( Theory Z)是由美国日裔学者威廉·大内(一译乌契,William Ouchi)在1981年出版的<Z理论>一书中提出来的,其研究的内容为人与企业.人与工作的关系. 威廉·大内是美国斯坦福大学的企业管理硕士,在芝加哥大学获企业管理博士学位.他从1973年开始专问研究日本企业管理,经过调查比较日美两国管理的经验,提出Z理论.如今,他是加利福尼亚州立大学洛杉机分校的管理学教授. 在Z理论的研究过程中,大内选择了日.美两国的一些典型企业进行研

李成名博士:智慧城市的时空信息云平台

智慧城市是近年来政府和很多研究机构都非常关注的话题,中国测绘科学研究院GIS研究所所长李成名博士从测绘行业.地理信息领域角度,为我们诠释了他对智慧城市的思考. 如何把数字城市升华到智慧城市 智慧城市的概念是,智慧城市就是以更智慧的方法通过新一代的技术改变人们交流的方式.提高实时处理的信息.感应的速度和响应的速度,增加业务的弹性.连续性,促进社会的和谐发展.智慧城市总的理解起来是易于宣传的概念,缺点是它是一个无法准确定义笼统的东西,因为智慧是我们每人都有不同概念的,因而不能精确定义.但不管是什么样

2016智慧城市建设走向新时代 应用PPP模式抓住四点

李克强22日主持召开国务院常务会议,部署深入推进以人为核心的新型城镇化,更大释放内需潜力.会议指出,城镇化是中国发展最大的潜力所在.会议确定,一是放宽农业转移人口落户条件:二是加快城镇棚户区和危旧房改造:三是扩大新型城镇化综合试点范围:四是完善土地.城镇住房等制度,鼓励地方利用财政资金和社会资本设立城镇化发展基金.会议还提到运用"互联网+"推进智慧城市建设,提高公共服务和公共安全保障水平. 近年来,国家多部委联合发布<国家新型城镇化规划(2014-2020)><关于促

智慧城市建设应坚持人文本位

[核心提示]家庭生活与家族联系仍然是中国人日常生活最为重要的部分.鉴于此,中国的智慧城市建设中必须创设足够的家庭.家族生活空间,让人们在现代社会享受天伦之乐的同时重建民间信仰体系,让家规民约成为基层社会的道德行为规范,进而重建基层社会秩序. 中国的智慧城市建设正在从理论研讨.战略规划向具体落实.全面展开方向逐步推进,人们普遍期待未来的智慧城市建设将为拓展城市生活空间.完善城市生活设施.提高城市管理效率.降低城市运营成本发挥重大的促进作用.值得注意的是,当前的智慧城市建设研究比较偏重于互联网的广泛