搜索引擎算法研究(二)-搜索引擎技术

2.1.2 算法的一些问题

     Google是结合文本的方法来实现PageRank算法的[2],所以只返回包含查询项的网页,然后根据网页的rank值对搜索到的结果进行排序,把rank值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank算法就无能为力了,比如在 Google中查询search engines,像Google,Yahoo,Altivisa等都是很重要的,但是Google返回的结果中这些网页并没有出现。
 同样的查询例子也可以说明另外一个问题,Google,Yahoo是WWW上最受欢迎的网页,如果出现在查询项car的结果集中,一定会有很多网页指向它们,就会得到较高的rank值, 事实上他们与car不太相关。

     在PageRank算法的基础上,其它的研究者提出了改进的PageRank算法。华盛顿大学计算机科学与工程系的Matthew Richardson和Pedro Dominggos提出了结合链接和内容信息的PageRank算法,去除了PageRank算法需要的前提2,增加考虑了用户从一个网页直接跳转到非直接相邻的但是内容相关的另外一个网页的情况[3]。斯坦大学计算机科学系Taher Haveliwala提出了主题敏感(Topic-sensitive)PageRank算法[4]。斯坦福大学计算机科学系Arvind Arasu等经过试验表明,PageRank算法计算效率还可以得到很大的提高[22]

 

2.2 HITS算法及其变种

     PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。而WEB的链接具有以下特征:

     1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。
     2.基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。
     3.权威网页很少具有显式的描述,比如Google主页不会明确给出WEB搜索引擎之类的描述信息。

     可见平均的分布权值不符合链接的实际情况[17]。J. Kleinberg[5]提出的HITS算法中引入了另外一种网页,称为Hub网页,Hub网页是提供指向权威网页链接集合的WEB网页,它本身可能并不重要,或者说没有几个网页指向它,但是Hub网页确提供了指向就某个主题而言最为重要的站点的链接集合,比一个课程主页上的推荐参考文献列表。一般来说,好的Hub网页指向许多好的权威网页;好的权威网页是有许多好的Hub网页指向的WEB网页。这种Hub与Authoritive网页之间的相互加强关系,可用于权威网页的发现和WEB结构和资源的自动发现,这就是Hub/Authority方法的基本思想。

时间: 2024-09-17 03:46:10

搜索引擎算法研究(二)-搜索引擎技术的相关文章

搜索引擎算法研究(一)-搜索引擎技术

1.引言      万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展.1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14].WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战.      传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎.这些搜索引

搜索引擎算法研究(三)-搜索引擎技术

2.2.3 HITS的变种      HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有: 2.2.3.1 Monika R. Henzinger和Krishna Bharat对HITS的改进      对于上述提到的HITS遇到的第2个问题,Monika R. Henzinger和Krishna Bharat在[7]中进行了改进.假定主机A上

搜索引擎算法研究(五)-搜索引擎技术

为了符合贝叶斯统计模型的规范,要给2M+N个未知参数(,,)指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的.Allan Borodin等在中指定满足正太分布N(μ,),均值μ=0,标准方差δ=10,指定和满足Exp(1)分布,即x>=0,P(>=x)=P(>=x)=Exp(-x).      接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算. 2.5.1 简化的贝叶斯算法      Allan Borodin同时提出了简化的

搜索引擎算法的分词技术

我们知道,每个搜索引擎都具有分词技术,那么关于分词技术作为SEOer的你了解多少,了解搜索引擎的分词技术对搜索引擎算法研究是很有帮助的,好,下面泰州SEO给大家讲讲什么是搜索引擎的分词技术! 要了解搜索引擎的分词技术就不能不去了解搜索引擎的索引库,因为索引库是分词技术的前提!索引库呢其实就是经过页面分类信息删选过的资料库:我们在去百度搜索信息的时候,百度搜索引擎并不是现查现找,而是搜索引擎早就把各类信息分类归档,每种分类的信息都有一个独立的资料库,而这个独立的资料库就是我们说的索引库,当我们去百

基于JAVA技术的搜索引擎的研究与实现

搜索引擎 摘要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情.建立搜索引擎就是解决这个问题的最好方法.本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人.索引引擎.Web服务器三个方面进行详细的说明.为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎--新闻搜索引擎. 新闻搜索引擎是从指定的Web页面中按照超连接进行解析.搜索,并把搜索到的每条新闻进行索引后加入数据库.然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻. 本人在介绍

搜索引擎算法和研究

作为搜索者或 搜索引擎优化专业人士,你真的需要理解支持搜索引擎的算法和技术吗?在近来召开的一次搜索引擎战略会议上,搜索引擎算法和研究座谈小组专家的答复是肯定的:绝对有必要. 这是一份来自于2005年2月28到3月3日在美国纽约召开的搜索引擎战略会议中的特殊报道. 这个搜索引擎算法和研究座谈小组的成员包括:ASK Jeeves的产品管理和搜索技术副总裁Rahul Lahiri,Smart Interactive(近来被webSourced收购)的CEO,Mike Grehan以及来自于Mi Isl

面对搜索引擎算法更新,网站优化需从营销思维出发

搜索引擎算法的不断改革,让站长们逐渐认识到用户体验的重要性.在执行的过程中,很多站长们都片面的认为,做好用户体验的核心就是回归站内优化,忽略外链对网站排名的重要性.把主要精力放在网站内容建设上,从高质量的原创文章到合理的内链设置,从网站框架的构造到网站地图的提交,从301重定向到404页面的提交等,只要是认为能够增加用户体验的方法,站长们都在穷尽所及的建设,却忽略了网站优化最根本的目的. 每次站长们优化策略的改革,不可不谓说是紧跟搜索引擎变化的步伐,所有的一切大部分都根据搜索引擎的公告或者站长们

分析谷歌熊猫算法 人工智能搜索引擎算法的前哨

毫无疑问,人工智能和搜索引擎的融合是大势所趋,当前搜索引擎的各种算法相对而言,还是基于软件程式设计的基础之上,所以算法的改变仅仅是对之前算法缺陷的一种修复,所以对于当前搜索引擎潜在的一些问题还是没有办法彻底解决,诸如网站如何通过记忆的方式进行排序,如何实现更为智能的人机交互的搜索模式等等,而2012年谷歌推出的熊猫算法,显然已经融入了人工智能搜索引擎部分技术,我们可以从谷歌熊猫算法的一些特征来看到人工智能技术在搜索引擎上的一些应用. 一:对于网站内容的可读性和有益性有了更高的要求 谷歌的熊猫算法

【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:灵培.霹雳.哲予 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性.因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题.传统的Learning to Rank(LTR)方法主要是