搜索引擎算法研究(三)-搜索引擎技术

2.2.3 HITS的变种

     HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有:

2.2.3.1 Monika R. Henzinger和Krishna Bharat对HITS的改进

     对于上述提到的HITS遇到的第2个问题,Monika R. Henzinger和Krishna Bharat在[7]中进行了改进。假定主机A上有k个网页指向主机B上的某个文档d,则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k,而不是HITS中的每个文档贡献1,总共贡献k。类似的,对于Hub值,假定主机A上某个文档t指向主机B上的m个文档,则B上m个文档对t的Hub值总共贡献1,每个文档贡献1/m。I,O操作改为如下

I 操作:

O操作:

     调整后的算法有效的解决了问题2,称之为imp算法。

     在这基础上,Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5,实际上也同时解决了问题3。具体方法如下,提取根集S中的每个文档的前1000个词语,串连起来作为查询主题Q,文档Dj和主题Q的相似度按如下公式计算:

=项i在查询Q中的出现次数,

=项i在文档Dj中的出现次数,IDFi是WWW上包含项i的文档数目的估计值。

时间: 2024-08-07 15:04:57

搜索引擎算法研究(三)-搜索引擎技术的相关文章

搜索引擎算法研究(一)-搜索引擎技术

1.引言      万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展.1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14].WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战.      传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎.这些搜索引

搜索引擎算法研究(二)-搜索引擎技术

2.1.2 算法的一些问题      Google是结合文本的方法来实现PageRank算法的[2],所以只返回包含查询项的网页,然后根据网页的rank值对搜索到的结果进行排序,把rank值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank算法就无能为力了,比如在 Google中查询search engines,像Google,Yahoo,Altivisa等都是很重要的,但是Google返回的结果中这些网页并没有出现. 同样的查询例子也可以说明另外一个问题,Googl

搜索引擎算法研究(五)-搜索引擎技术

为了符合贝叶斯统计模型的规范,要给2M+N个未知参数(,,)指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的.Allan Borodin等在中指定满足正太分布N(μ,),均值μ=0,标准方差δ=10,指定和满足Exp(1)分布,即x>=0,P(>=x)=P(>=x)=Exp(-x).      接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算. 2.5.1 简化的贝叶斯算法      Allan Borodin同时提出了简化的

搜索引擎算法的分词技术

我们知道,每个搜索引擎都具有分词技术,那么关于分词技术作为SEOer的你了解多少,了解搜索引擎的分词技术对搜索引擎算法研究是很有帮助的,好,下面泰州SEO给大家讲讲什么是搜索引擎的分词技术! 要了解搜索引擎的分词技术就不能不去了解搜索引擎的索引库,因为索引库是分词技术的前提!索引库呢其实就是经过页面分类信息删选过的资料库:我们在去百度搜索信息的时候,百度搜索引擎并不是现查现找,而是搜索引擎早就把各类信息分类归档,每种分类的信息都有一个独立的资料库,而这个独立的资料库就是我们说的索引库,当我们去百

基于JAVA技术的搜索引擎的研究与实现

搜索引擎 摘要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情.建立搜索引擎就是解决这个问题的最好方法.本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人.索引引擎.Web服务器三个方面进行详细的说明.为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎--新闻搜索引擎. 新闻搜索引擎是从指定的Web页面中按照超连接进行解析.搜索,并把搜索到的每条新闻进行索引后加入数据库.然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻. 本人在介绍

搜索引擎算法和研究

作为搜索者或 搜索引擎优化专业人士,你真的需要理解支持搜索引擎的算法和技术吗?在近来召开的一次搜索引擎战略会议上,搜索引擎算法和研究座谈小组专家的答复是肯定的:绝对有必要. 这是一份来自于2005年2月28到3月3日在美国纽约召开的搜索引擎战略会议中的特殊报道. 这个搜索引擎算法和研究座谈小组的成员包括:ASK Jeeves的产品管理和搜索技术副总裁Rahul Lahiri,Smart Interactive(近来被webSourced收购)的CEO,Mike Grehan以及来自于Mi Isl

搜索引擎常用的三种网站排序算法

搜索引擎如何对互联网上那么多的网站进行合适的排名?想必做站长的都想知道这一点,这是通过一套非常繁琐复杂的算法计算出来的,具体的算法想必没有几个人知道,但是最常用的三种算法还是需要大家去了解一下的. 1.词频位置加权排序算法:顾名思义是说从整个网站上的文字的位置上与出现的次数进行排序,先来说一下位置,不同的网站关键词在内容里出现与在标题里面出现时差别非常大的,搜索引擎认为标题能表现出一个网站是干什么的,如果标题里面出现了关键词要远比文章里面出现关键词重要的多的多.这就是现在大家都知道一个网站的标题

【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:灵培.霹雳.哲予 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性.因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题.传统的Learning to Rank(LTR)方法主要是

面对搜索引擎算法更新,网站优化需从营销思维出发

搜索引擎算法的不断改革,让站长们逐渐认识到用户体验的重要性.在执行的过程中,很多站长们都片面的认为,做好用户体验的核心就是回归站内优化,忽略外链对网站排名的重要性.把主要精力放在网站内容建设上,从高质量的原创文章到合理的内链设置,从网站框架的构造到网站地图的提交,从301重定向到404页面的提交等,只要是认为能够增加用户体验的方法,站长们都在穷尽所及的建设,却忽略了网站优化最根本的目的. 每次站长们优化策略的改革,不可不谓说是紧跟搜索引擎变化的步伐,所有的一切大部分都根据搜索引擎的公告或者站长们