搜索引擎基础算法如何确定返回结果之算法分析

  搜索引擎是否试图最佳匹配输入查询返回页面?如果你意识到这一点,你就会明白,为什么谷歌和其他搜索引擎会使用一个复杂的算法来确定什么结果他们应该返回?在该算法的因素中包括“硬因素”,比如反响你链接到一个页面的数量,一些通过喜欢和+1功能实现的社会建议。这些通常都是一些外部影响,还有一些页面本身的因素,只有通过分析在线和离线因素可能为谷歌来确定哪些页面是背后问题的查询,对于这个谷歌将不得不分析一个页面上的文本。

  1、TRUE或FALSE(真或假)

  虽然搜索引擎在最近几年的发展中已经非常迅速,但是它依旧只能处理布尔算法。简单来说一个长期被包含的一个文档,一些是真或假,1或0。另外你可以使用运营商的AND,OR和NOT搜索包含多个条件或排除条款的文件。这听起来相当简单,但是它确实存在一些问题。

  假设我们现在有两个文档,其中包含以下文本:Doc1:“我们在纽约的餐厅提供bitterballen croquets服务(And our restaurant in New York serves croquets and bitterballen)”;Doc2:“在荷兰您从墙上检索croquets和frikandellen。(In the Netherlands you retrieve croquets and frikandellen from the wall)”

  如果我们要构建一个搜索引擎,第一步是标记文本。我们希望能够迅速确定哪些文件包含特殊的术语,如果我们都把令牌放在一个数据库,这很容易实现,一个令牌就代表在为本中任何一个单术语。所以有多少令牌在Doc1中包含呢?

  当你开始想回答这个问题的时候,你可能想顶一个一个“术语”。实际上在Doc1中“纽约”应该被认为是一个特殊的单术语。我们怎么能确定这两个单词,实际上是一个超出了本文范围的一个词,所以目前我们威胁每个单独此作为一个单独的令牌。. 所以我们有10个令牌在从Doc1和11令牌在Doc2。为了避免重复的信息在我们的数据库中,我们将存储类型而不是令牌。

  类型是在文本上的单独令牌。在Doc1中包含两个令牌“and”,这里需要说明大小写不易的AND可以算作是两次。在这个例子中我们可以将“and”和“&”作为一个相同的类型存储。

  通过存储在缩句库中的所有烈性的文件,搜索引擎可以找到他们,我们可以在数据库布尔值的帮助下进行搜索。如果搜索“croquets”将会从Doc1和Doc2中返回两个结果,但是如果搜索“croquets和bitterballen”将只返回从Doc1结果。这样的结果会导致一个问题是你可能会获得太多或太少的结果。此外,它缺乏组织能力的结果。如果我们想要提高我们的方法,必须确定我们吗尅一使用其他存在/缺乏一个文档,你会使用页面要素组织结果。

  2、带索引

  一个相对简单的方法是使用带索引,一个web页面可风味不同的区域。想到一个标题,描述,作者和内容,通过在文档中添加一个内容,我们可以为每个文档计算出一个简单的评分,这个是搜索引擎用于确定页面主题的方法。

  不同的区域有不同的重量,在搜索引擎的索引中根据这些区域的质量来确定网站在serp中排序。比如,标题(0.4)描述(0.1)内容(0.5),比如我们执行以下搜索查询“croquets和bitterballen”,其中我们有一个文档被索引的值如下表格所示:

 

 

区域 内容 布尔 得分
标题 纽约咖啡馆 0 0
描述 美味的咖啡厅与croquets和bitterballen 1 0.1
内容 我们在纽约的餐厅供应croquets和bitterballen 1 0.5
 

  因为在seo优化某些时候,站长朋友都开始滥用权重分配到描述,这就使得谷歌的身体分割在不同的区域和不同的权重分配到每个区域变得更加重要。

 

  想要很好实现这些是相当困难的,因为在网络中包含具有不同结构的各种文档,但是如果使用XML文档就显得简答的多,它比html文件的结构和标签要丰富的多,这是的分析更加简单。当然在现在和html5中或许谷歌会支持它的一些微格式,但它仍然有它的局限性。例如,如果你知道,谷歌分配更多的重量内的< content >标记和内容在< footer >标签的内容,你将永远不会使用< footer >标签。

  要确定页面的情况下,谷歌将不得将网页分割成快。通过这种方式,谷歌可以判断哪些数据块在页面上是重要的,哪些不是。可以使用的方法是比较文本/代码的比率。如果一个页面中包含更多的文本,html代码中半酣的主业内容在页面快上。如果页面快中包含许多的html代码/链接,有很少的内容,可能是菜单,这就是为什么选择正确的编辑器是非常重要的,因为某些编辑器使用很多不必要的HTML代码。

  文本/代码比率的使用仅仅是一个搜索引擎可以使用的页面划分成块的方法之一。带索引方法的优点是,你可以很简单的计算为每个文档的得分。许多文件的缺点当然是可以得到相同的分数。

  原创文章是是由:http://www.thebaiduseo.cn/news-19.html站长首发,转载请保留有效的链接地址,谢谢!

时间: 2024-08-30 03:21:23

搜索引擎基础算法如何确定返回结果之算法分析的相关文章

第二课笔记:搜索引擎基础知识和工作原理

  大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识.今天要分享的是<搜索引擎基础知识和工作原理>,这是最基本的概念吧, 第一部分:什么是搜索引擎? 1,定义? 官方定义: 搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.百度和谷歌等是搜索引擎的代表. 我的理解是: 按照搜索引擎的搜索规则去设置目标网站的

搜索引擎核心算法:自然语言和布尔搜索

本人从事搜索引擎相关的工作已有十一年,今天与大家一起谈谈搜索引擎核心算法之:自然语言和布尔搜索.论述引出了如下结论:搜索爬虫和搜索引擎使用某种启发式方法给网页排名,并返回结果.爬虫观察模式,以确定某网页的内容,搜索引擎在搜索查询中查找模式,并与爬虫识别的模式进行比较,并返回结果. 这个理论的复杂性在于,我们使用的是活跃的.不断成长.不断演变的语言,这意味着语言的使用模式也在不断变化.为了跟上这种变化,搜索引擎也必须是活跃的.不断成长.不断演变的,所以在理解如何针对搜索引擎定位阿站时,启发式方法是

php四种基础算法代码实例_php实例

php四种基础算法:冒泡,选择,插入和快速排序法许多人都说 算法是程序的核心,一个程序的好于差,关键是这个程序算法的优劣.作为一个初级phper,虽然很少接触到算法方面的东西 .但是对于冒泡排序,插入排序,选择排序,快速排序四种基本算法,我想还是要掌握的.下面是我按自己的理解,将四个方法分析一遍.需求:分别用 冒泡排序法,快速排序法,选择排序法,插入排序法将下面数组中 的值按照从小到的顺序进行排序. $arr(1,43,54,62,21,66,32,78,36,76,39); 1. 冒泡排序法

《SEO的艺术(原书第2版)》——第2章 搜索引擎基础

第2章 搜索引擎基础 本章将开始研究搜索引擎的工作原理.这一主题的坚实基础对于理解SEO这一行业是必不可少的.第1章已经讨论过,人们习惯于在提交搜索查询之后立即得到搜索引擎的回答.第1章还讨论了查询的数量(每秒超过6 000次),Google早在2008年就曾经宣布,他们知道Web上1万亿个页面的情况.由于Web的快速成长,现在这个数字可能又增加了一个甚至多个数量级.在如此庞大的数据处理任务背后是任务本身的复杂性.理解搜索引擎最重要的一点是,理解用于访问Web上所有网页的爬行器(也称"蜘蛛&qu

过度追逐搜索引擎的算法导致关键词排名不稳定

一般刚入门的SEOer在学习SEO技术的时候都是按着搜索引擎的算法在做排名的,不过像我们一般人又怎么可能知道那些最机密的搜索引擎排名算法呢?不过还是有些高手可以通过一些数据的观察以及一些网站的变化,可以推断出搜索引擎在哪些地方做出了调整.这部分高手值得尊敬,但不是所有的SEOer可以学习乃至于做到的,其实我们也没有必要去做到这些.因为网站的关键词排名并不仅仅只局限于搜索引擎的基本算法. 据谷歌方面的消息,谷歌作为世界上最优秀的搜索引擎,每年对算法的改进多达500次.平均下来那就是每天都会修改1.

追逐搜索引擎的算法太累 做好SEO有更好的方法

现在太多做SEO的人希望能破译搜索引擎的算法用在自己的网站上,从而获取良好的排名,我看到有很多做SEO的人天天盯着搜索引擎的算法去做优化.搜索引擎一有风吹草动就赶紧弄明白搜索引擎哪项算法作出调整了.其实这么做就像猫抓老鼠一样,很累,而且太不现实.据谷歌的官方说法是:谷歌一年对算法的调整不下500次.也就是说差不多一天都会进行一次半的调整,开发搜索引擎的人多聪明,人家整团队有多少人.我们怎么可能准确的抓住搜索引擎的算法呢,我们需要透过现象看本质,抓住一些本质的东西,尽量的把握一些不可按的东西.才能

解密搜索引擎的算法发展历程

大家知道搜索引擎的算法是变幻莫测的,也就是说搜索引擎这些年来是不断发展,不断改进的.也许今天是这样的算法,明天就会是别的算法了.今年这个算法管用,明年这个算法就不是这么回事了.所以有的网站今年使用这样的手法获取了排名,等到明年搜索引擎算法一改变的时候,关键词排名就下降了.所以了解搜索引擎最新的算法成了我们广大SEOer不断追求的目标.据相关人士透露,谷歌一年对于算法的调整大概有500多次,平均算下来的话,每天就有一1.5次的算法调整,所以今天带大家探讨搜索引擎算法发展的历程有着重大意义.接下来就

想了解机器学习?你需要知道的十个基础算法

关于机器学习,你需要知道的十个基础算法 毫无疑问,作为人工智能的子领域-机器学习在过去的几年中越来越受欢迎.由于大数据是目前科技行业最热门的趋势,基于大量的数据机器学习在提前预测和做出建议方面有巨大的潜力.一些有关机器学习常见的例子有:Netflix基于你以前看过的电影再给你做出影片的推荐,或者亚马逊根据你以前买过的书籍再给你进行图书推荐. 如果想了解更多有关机器学习的知识,要从哪里开始呢?作者第一次入门是在哥本哈根海外交流时选了一门有关人工智能的课程.这门课程的讲师是丹麦科技大学(Techni

基础算法题,求思路和代码

问题描述 基础算法题,求思路和代码 问题 E: L1-6. 连续因子 时间限制: 1 Sec 内存限制: 128 MB 题目描述 一个正整数N的因子中可能存在若干连续的数字.例如630可以分解为3*5*6*7,其中5.6.7就是3个连续的数字.给定任一正整数N,要求编写程序求出最长连续因子的个数,并输出最小的连续因子序列. 输入 输入在一行中给出一个正整数N(1<N<231). 输出 首先在第1行输出最长连续因子的个数:然后在第2行中按"因子1*因子2*--*因子k"的格式