互联网在上个世纪90年代开始普遍民用,发展至本世纪初,己经发展成为一个蕴含各个领域的、巨大的、分布广泛的、全球性的信息交换与共享平台,同时它也成 为人们获取信息的一个重要途径。至此,人们已经不愁找不到自己需要的信息。但是由于现在Web上信息的海量性、动态性、非结构性和无序性等特点,使得人们 要从Web上获取自己所真正需要的信息变得非常的困难,有时甚至感觉如同大海捞针。Google、百度和Yahoo等公认比较优秀的搜索引擎将网络资源进 行了一定的组织,在信息检索方面确实给人们的学习和生活带来了许多便利。这些著名的搜索引擎在信息检索的响应效率和查全率(Recall)方面做的已经非 常好,但在使用方便性和查准率(Precision)方面仍很不够。用户在使用这些搜索引擎时,不仅得认真反复地思考应输入什么样的关键词条,而且系统向 用户返回查询结果时,不但不能很好地根据不同用户进行区分服务,而且其返回的搜索结果通常是十分庞大和杂乱无章的,其中充斥着大量与用户的搜索意图毫不相 关的资料,用户经常需要花费大量时间才能人工地过滤掉大量不相关的结果,并耐心而艰难地寻找出自己真正所需的资料。所以,分析用户的兴趣、给用户提供个性 化的服务,成了网络产品发展的重中之重。
到了2003年前后,Web2.0成为互联网的热门概念之一,它是相对Web1.0的新的一类互联网应用的统称。传统的Web1.0(亦即2003年以前 的互联网)的主要特点在于用户通过浏览器获取信息,用户需要自己去寻找所关心的信息在哪里,操作繁琐且不方便;Web2.0则更注重“草根”用户的交互作 用、注重“分享”(Share)的概念,用户既是网站内容的消费者(浏览者),也是网站内容的制造者。Web2.0以xml、Ajax等技术为基础,以博 客(Blog)、标签(Tag)、社会网络(SNS)、RSS、维基百科(Wiki)等社会软件的应用为核心,一定程度上实现了网络用户的兴趣发现、兴趣 共享和个性化推荐功能。比如:八宝盒是一个基于音乐分享及偏好而建立起来的SNS服务,利用多年积累研发的推荐引擎,8box能帮你找到可能喜欢的音乐, 帮你分析出哪些用户是你的音乐“同好”;电影推荐网站“What to Rent” (意为“租点什么”) 让初次光临的用户回答一系列随机的问题,并用这些问题来了解用户的特质,从而推荐DVD;豆瓣网以用户所参与的小组和关注的对象作为切入点,挖掘用户兴 趣,进而向其推荐其感兴趣的图书。可以说,以“发现”和“推荐”为主要功能的网站正如雨后春笋般在互联网上崭露头角。
当然,Web2.0只是一个概念,其实在90年代末的时候就有人使用这个名词了,不过被炒热是在近几年。而当Web2.0风头正劲的时候,又已有人提出了 Web3.0的概念,认为:在Web3.0时代,会把Web2.0所有的东西重新整理,结合语义网络和庞大资料空间,提供更无以计数的个性化资料来源。其 中,Web3.0一个最重要的特性就是“智能”,也就是说,Web3.0是以智能的名义出现的。在今年4月份的博鳌亚洲论坛2008年年会“互联网的未 来”分论坛上,Google前全球副总裁兼大中华区总裁李开复也提及,下一代互联网必将是智能化和个性化的。或许,这些号称更加个性化、智慧型应用的互联 网概念涌现出来,又会像当初Web2.0一样导致互联网的另一场革命(尽管这里面有比较严重的商业炒作成分)。
就算撇开Web1.0、Web2.0、Web3.0这些受饱受争议的概念词汇不说,应该没有人会质疑下一代互联网将会是智能化、个性化的这个观点。它将在 用户上网的时候,“不知不觉地”分析用户的兴趣,进而主动为用户推荐、提供其感兴趣的东西。而我们要考虑的,就是挖掘用户在上网过程中所体现出来的对网 页文本的兴趣,进而可以向其提供个性化的服务。