我小的时候,电视只能收到三四个台,很多那个时候的电视节目,例如《动物世界》、《射雕英雄传》、《渴望》等等,都成了经典——可选择的少了,能记住的反倒多了。现在的电视,动辄能收到上百个台,往好里说是百花齐放,异彩纷呈;往差里说是五色杂陈,泥沙俱下。可看的多了,反而不知道看什么好,往往是“乱花渐欲迷人眼”,转了一圈都找不到中意的节目。几百个电视频道就够让人心烦意乱了,网络世界则更加恐怖:Netflix.com上面有数万部电影,Amazon.com上面有数百万本书,Del.icio.us上面有超过10亿的网页收藏……不要说仔细选择,把题目全看一遍,也是绝不可能的事情。可以获取的信息多了,在表面丰富的背后,意味着从汪洋大海中找到你所需要的信息,其难度和成本都上升了。这些让人头痛的问题,就是所谓的信息超载(information
overload)。简单地说,信息超载就是指过量信息的同时呈现,远远超出了一般用户的分辨和处理能力——可以选择的多了,却不知道如何选择。其表现为可获取的信息多了,用户体验却不见好,甚至变得更差。
很多工具被开发出来指导用户如何更好地利用信息,例如阅读《广播电视报》可以帮助你更好地找到自己喜欢的电视节目。因为信息超载主要还是与互联网有关的问题,下面我们把注意力集中在互联网上面。为了帮助用户通过互联网找到自己喜欢或者有用的东西,信息集成和信息过滤的工具是必要的,大致而言,这方面的发展经历了四个阶段(不是严格的时间先后关系)。
首先是信息索引工具。简而言之,信息索引就像电话黄页一样,把可能有用的信息按照某种分类或者顺序组织起来,便于用户查找。这里给出了一个名为“化学信息导航站”的信息索引网站的例子(http://home.ustc.edu.cn/~wjbai/chem/chem.html)。该网站将从事化学学习和研究中可能用到的一些资源,按照一定的方式,例如学科方向或者研究机构,进行分类和组织。这类网站所引用的地址和信息,往往都是相当稳定的,例如美国化学学会的网址,没有重大原因肯定不会更换。这种信息索引在专业研究领域广泛使用,例如针对蛋白质结构和基因组问题,每年都会有一本新的手册,公布相关研究机构的网址,和在网络上可以公开使用的数据资源地址。信息索引网站尽管简单,但现在仍然广泛使用,大家熟知的网站www.hao123.com (hao123网址之家)仅仅是罗列了一些较知名的网站,但是其网站访问流量在我国非常靠前。总的来说,信息索引工具的优点是简单易用,缺点是更新慢,适应能力差,缺乏用户的个性化特征。
第二就是所谓的门户网站,例如我们熟悉的雅虎、新浪、搜狐等等。门户网站使用也很方便,并且集中了主流的兴趣,一般的用户总是能够从中找到部分自己感兴趣的内容。相比信息索引,门户网站的更新也很快。但是,门户网站有一个同样的弊端,就是缺少个性化设计,无法满足用户与主流兴趣不符合的需求。
过滤海量信息方面里程碑的进展来自于搜索引擎的出现。通过主题定位(输入关键词),用户能够比较准确地找到自己感兴趣的网页。搜索引擎是使用最频繁的网络信息过滤工具,对于我们的生活有巨大影响,事实上,Google和百度已经不仅仅是网站的名称,而是常用的动词。但是,搜索引擎仍然存在两个比较严重的问题。首先,尽管选择关键词是完全个性化的,但是针对同一个关键词,返回的信息对于每一个用户仍然是相同的,事实上也是表达了主流的兴趣,倘若对某关键词或者关键词组,用户的兴趣和主流兴趣不一致,那么他很难从返回的搜索结果中找到自己感兴趣的内容。另外,有一些对信息内容的需求,是没有办法通过简单的关键词匹配表示出来的。例如,一个用户可能对于某种类型的小说或者诗歌非常喜欢,但这是一种整体的感觉,并不仅仅取决于某个作者或者某个主题——这种感觉难以言表,因此也就无法进行搜索。
如果把关键词和搜索引擎作为探索信息世界的武器,如同宇宙中有很多我们探索不到的暗物质,万维网中也有很多“暗信息”,这些信息是我们(普通用户)探寻不到的。推荐系统的基本原理,就是对用户的历史活动记录进行统计分析,挖掘用户的喜好,然后根据这些喜好,自动地从海量信息中找到与之匹配的内容,并进行推荐。推荐系统是网络信息过滤工具的第四个阶段,也是目前解决信息超载问题最有潜力的办法。因为每个用户的历史信息都不相同,所以推荐结果也是个性化的。
推荐系统这个概念,在上世纪九十年代就比较成熟了[1]。最近的火热发展,来源于Web2.0技术的成熟。因为有了这个技术,用户不再是被动的网页浏览者,而成为主动参与者[2]。通过对网站提供的项目(包括用户主动提交到网站上的项目)进行评分或粘贴标签,用户的喜好潜在地表现在这些活动中,网站可以设计相应的推荐算法,把这些喜好挖掘出来,从而向用户推荐他们可能感兴趣的项目。推荐系统的兴起,还得益于它重大的商业化前景。以我国为例,现在一年网络购物的交易量约为500亿美元,而且这个数字还在激增。在基于Web2.0的购物网站上,用户除了购物以外,还可以对所购物品进行评价——这些评价可以被其他用户看到并参考。那么,一个自然的问题就是,能不能利用这些评价记录,最大可能地挖掘用户喜好,向用户推荐他可能喜欢的商品。这不仅仅是一种商品营销手段,而且可以增加用户对该网站的黏着性(谁会拒绝一个了解自己喜好的网站呢)。现在推荐系统的商务化应用已经比较广泛,例如Amazon.com推荐书,Netflix.com推荐电影,Music.Yahoo.com推荐音乐,Sesamr.com推荐网址,AdaptiveInfo.com
推荐新闻。此外还有推荐朋友,推荐食品等等,不一而足。
除了计算机互联网,手机现在也成为了推荐系统的新媒介。例如可以通过手机信号发送的购物推荐信息,用户可以对推荐的产品和陈列的产品进行评价,这些评价信息将成为推荐的数据基础。因为手机号码具有唯一性,所以每个手机的拥有者都可以被视作一个独立用户。随着电子货币的发展,用户利用信用卡在超市刷卡购物的信息也可以被记录,这些信息也可以被用于推荐。
本文引用地址:http://blog.sciencenet.cn/blog-3075-25413.html