搜索引擎网站唯一目标是:改善用户体验,为用户保证搜索质量,给出最好的排序。要实现这一目标,就必须依靠搜索算法,搜索的算法是它们最核心的技术。
谷歌是全球最大的搜索引擎网站,其搜索引擎技术和如何保证“搜索质量”让很多人非常感兴趣。近日,谷歌负责“搜索质量”的副总裁Udi Manber公布了一些谷歌如何实现这一目标的内情。根据他的说明谷歌平均一周会有9个对搜索算法的优化项目。这个数字充分说明了谷歌为此付出的巨大努力。
Manber主要说明的内容还包括:
1、谷歌将保证搜索质量视为搜索引擎的首要任务。每天有成百上千的用户在谷歌上搜索,谷歌必须在以秒为单位的时间内决定成亿的网页排序,并把结果按照一定的顺序显示给用户。
2、谷歌的搜索引擎也不完美,这有其自身原因。坦诚地说,这和搜索的设计有关系,这种设计是非常保密的。保密的原因是竞争和防止滥用。竞争是最容易理解的。没有哪个公司愿意向它的竞争对手分享技术秘密。至于滥用,是因为谷歌不可能开放排序算法公式,那样的话,谷歌的系统就会随意模仿和修改。
3、排序算法是谷歌最宝贵的财富。谷歌为此而骄傲,并严密地保护它。谷歌为此投入了一千人的程序员和科学家成年累月地进行开发,这种努力将继续下去,并采取更快的速度。
4、谷歌将排序算法团队视为最核心的力量。搜索排序是很艰难的,超过很多人的想象。原因之一是语言语义天生的模糊、文档的没有规则,如何转化这些信息没有实际的标准,但是搜索引擎必须要懂得网页的内容,比如,是谁写的,为什么写等等。搜索引擎还需要理解和解析用户查询要求,比如在用户输入很少的文字的情况下,如何去理解这些输入。搜索引擎必须在百万毫秒之内做出很多工作。
5、排序算法中最知名是页面排序,但是页面排序只是整个大系统中很小一部分。页面排序目前还在使用,不过优化了很多。除了页面排序,还包括语言模式(比如处理单词、分析等)、查询模式、时间模式、个性化的模式等等。
6、谷歌有专门的团队负责评估排序工作的质量。质量评估的方法有三种:一是实时每分钟的评估,用以确保没有差错、二是周期性的质量评估、三是,也是最重要的对算法优化的评估。当一个工程师想到了一个新算法的时候,我们会有专门的测试分析团队进行彻底的测试和验证。在2007年,我们启动和验证了450项新的优化算法,平均是一周有9项。
从上面几点就可以看出谷歌为了保证用户搜索质量在政策上的重视、技术上的鼓励创新和管理上的严谨,也正是这三点保证了谷歌搜索引擎的先进性。
Manber还透露目前谷歌的重点在于国际化的搜索技术,并为致力于为用户提供新的特性和界面。