搜索引擎算法研究(五)-搜索引擎技术

为了符合贝叶斯统计模型的规范,要给2M+N个未知参数()指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N(μ,),均值μ=0,标准方差δ=10,指定满足Exp(1)分布,即x>=0,P(>=x)=P(>=x)=Exp(-x)。

     接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算。

2.5.1 简化的贝叶斯算法

     Allan Borodin同时提出了简化的上述贝叶斯算法,完全除去了参数,也就不再需要正太分布的参数μ,δ了。计算公式变为:P(i,j)=/(1+),Hub网页到Authority网页j没有链接时,P(i,j)=1/(1+)。

时间: 2024-11-02 09:52:55

搜索引擎算法研究(五)-搜索引擎技术的相关文章

搜索引擎算法研究(一)-搜索引擎技术

1.引言      万维网WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度扩展.1998年WWW上拥有约3.5亿个文档[14],每天增加约1百万的文档[6],不到9个月的时间文档总数就会翻一番[14].WEB上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,无结构或者半结构的,这就对传统信息检索技术提出了新的挑战.      传统的WEB搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎.这些搜索引

搜索引擎算法研究(二)-搜索引擎技术

2.1.2 算法的一些问题      Google是结合文本的方法来实现PageRank算法的[2],所以只返回包含查询项的网页,然后根据网页的rank值对搜索到的结果进行排序,把rank值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank算法就无能为力了,比如在 Google中查询search engines,像Google,Yahoo,Altivisa等都是很重要的,但是Google返回的结果中这些网页并没有出现. 同样的查询例子也可以说明另外一个问题,Googl

搜索引擎算法研究(三)-搜索引擎技术

2.2.3 HITS的变种      HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有: 2.2.3.1 Monika R. Henzinger和Krishna Bharat对HITS的改进      对于上述提到的HITS遇到的第2个问题,Monika R. Henzinger和Krishna Bharat在[7]中进行了改进.假定主机A上

搜索引擎算法的分词技术

我们知道,每个搜索引擎都具有分词技术,那么关于分词技术作为SEOer的你了解多少,了解搜索引擎的分词技术对搜索引擎算法研究是很有帮助的,好,下面泰州SEO给大家讲讲什么是搜索引擎的分词技术! 要了解搜索引擎的分词技术就不能不去了解搜索引擎的索引库,因为索引库是分词技术的前提!索引库呢其实就是经过页面分类信息删选过的资料库:我们在去百度搜索信息的时候,百度搜索引擎并不是现查现找,而是搜索引擎早就把各类信息分类归档,每种分类的信息都有一个独立的资料库,而这个独立的资料库就是我们说的索引库,当我们去百

基于JAVA技术的搜索引擎的研究与实现

搜索引擎 摘要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情.建立搜索引擎就是解决这个问题的最好方法.本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人.索引引擎.Web服务器三个方面进行详细的说明.为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎--新闻搜索引擎. 新闻搜索引擎是从指定的Web页面中按照超连接进行解析.搜索,并把搜索到的每条新闻进行索引后加入数据库.然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻. 本人在介绍

搜索引擎算法和研究

作为搜索者或 搜索引擎优化专业人士,你真的需要理解支持搜索引擎的算法和技术吗?在近来召开的一次搜索引擎战略会议上,搜索引擎算法和研究座谈小组专家的答复是肯定的:绝对有必要. 这是一份来自于2005年2月28到3月3日在美国纽约召开的搜索引擎战略会议中的特殊报道. 这个搜索引擎算法和研究座谈小组的成员包括:ASK Jeeves的产品管理和搜索技术副总裁Rahul Lahiri,Smart Interactive(近来被webSourced收购)的CEO,Mike Grehan以及来自于Mi Isl

从五个方面浅析搜索引擎算法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎算法每一次的变动都会牵动着广大站长的心,每个站长都非常想知道搜索引擎的算法是怎样的?如果彻底了解到了搜索引擎的排序准则,那么一定能够让你非常快速的将自己的网站优化到前面,可是搜索引擎的算法却是非常的繁难,对于一名普通的个人站长要想窥探出其中的奥秘,那比登天还难,不过没有关系,我们可以从其他的途径来了解搜索引擎,下面我就将我的经验写出来

面对搜索引擎算法更新,网站优化需从营销思维出发

搜索引擎算法的不断改革,让站长们逐渐认识到用户体验的重要性.在执行的过程中,很多站长们都片面的认为,做好用户体验的核心就是回归站内优化,忽略外链对网站排名的重要性.把主要精力放在网站内容建设上,从高质量的原创文章到合理的内链设置,从网站框架的构造到网站地图的提交,从301重定向到404页面的提交等,只要是认为能够增加用户体验的方法,站长们都在穷尽所及的建设,却忽略了网站优化最根本的目的. 每次站长们优化策略的改革,不可不谓说是紧跟搜索引擎变化的步伐,所有的一切大部分都根据搜索引擎的公告或者站长们

【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:灵培.霹雳.哲予 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性.因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题.传统的Learning to Rank(LTR)方法主要是