当搜索引擎在互联网诞生后技术一直以飞一般的速度在进步。即使搜索引擎服务商有技术、人力、财力的保证,搜索引擎还是需要面对很多技术的挑战。现在的搜索结果质量虽然已经达到用户的需求。不过这只是一个开始,搜多引擎还会有更多的创新,提供更准确的内容。
一、搜索引擎对页面的抓取需更快更全面
internet每天有无数的页面被更新、创建、无数用户在网上发布信息。要返回最有用的内容搜索引擎就要抓取最有用的页面。由于页面数据巨大,蜘蛛更新一次要花很长时间。主流的搜索引擎(如谷歌、百度)已经能在几天内更新重要页面。高权重网站上信息几小时甚至几分钟就能被收录,但是一些新站没权重的网站很多页面几个月不被重视也是很正常的。
搜索引擎要返回最好的内容,在抓取页面时就必须得全面。这就需要解决很多技术方面的问题。
二、海量的数据储存
大型网站光是页面就成千上万,可以想internet上所有网站的页面是一个什么样的数据量。搜索引擎不但要抓取页面,还要对有效地数据进行储存。
除了页面数据,搜索引擎还需储存页面直接的链接关系及大量的历史数据,这样的数据量是用户无法想象的,这样大规模的数据储存和访问必然存在很大的技术挑战。
三、查询处理需快速准确
用户在利用搜索引擎搜索时是唯一能看到搜索引擎的工作步骤。当用户点击“搜索”,不到一分钟就会看到结果。表面上看似简单的过程,实际上设计到非常复杂的后台处理。如何在不到一秒的时间内,快速从成千上万的页面形成到最合理、最相关、最权威的排列?
四、搜索引擎需判断用户意图及人工智能
判断用户意图目前还处在初级阶段。同样的关键词,不同的用户可能在查找不同的结果。如:搜索“电视”,用户到底是要了解电视机,还是电视剧?这个时搜索引擎该如何对相关页面排名来满足用户需求呢?不了解用户的个人搜索习惯,完全无从判断。
搜索引擎目前正在致力于基于用户搜索习惯及历史数据上的了解上,判断搜索意图,返回更相关的结果。搜索引擎是否能达到人工智能水平,了解用户的意图和目的,期待吧!
本文由idsem小组练习册编写 版权链接:http://www.banjia0917.com