搜索引擎基础算法如何确定返回结果之算法分析

　　搜索引擎是否试图最佳匹配输入查询返回页面?如果你意识到这一点，你就会明白，为什么谷歌和其他搜索引擎会使用一个复杂的算法来确定什么结果他们应该返回?在该算法的因素中包括“硬因素”，比如反响你链接到一个页面的数量，一些通过喜欢和+1功能实现的社会建议。这些通常都是一些外部影响，还有一些页面本身的因素，只有通过分析在线和离线因素可能为谷歌来确定哪些页面是背后问题的查询，对于这个谷歌将不得不分析一个页面上的文本。

　　1、TRUE或FALSE(真或假)

　　虽然搜索引擎在最近几年的发展中已经非常迅速，但是它依旧只能处理布尔算法。简单来说一个长期被包含的一个文档，一些是真或假，1或0。另外你可以使用运营商的AND,OR和NOT搜索包含多个条件或排除条款的文件。这听起来相当简单，但是它确实存在一些问题。

　　假设我们现在有两个文档，其中包含以下文本：Doc1:“我们在纽约的餐厅提供bitterballen croquets服务(And our restaurant in New York serves croquets and bitterballen)”;Doc2:“在荷兰您从墙上检索croquets和frikandellen。(In the Netherlands you retrieve croquets and frikandellen from the wall)”

　　如果我们要构建一个搜索引擎，第一步是标记文本。我们希望能够迅速确定哪些文件包含特殊的术语，如果我们都把令牌放在一个数据库，这很容易实现，一个令牌就代表在为本中任何一个单术语。所以有多少令牌在Doc1中包含呢?

　　当你开始想回答这个问题的时候，你可能想顶一个一个“术语”。实际上在Doc1中“纽约”应该被认为是一个特殊的单术语。我们怎么能确定这两个单词，实际上是一个超出了本文范围的一个词，所以目前我们威胁每个单独此作为一个单独的令牌。. 所以我们有10个令牌在从Doc1和11令牌在Doc2。为了避免重复的信息在我们的数据库中,我们将存储类型而不是令牌。

　　类型是在文本上的单独令牌。在Doc1中包含两个令牌“and”，这里需要说明大小写不易的AND可以算作是两次。在这个例子中我们可以将“and”和“&”作为一个相同的类型存储。

　　通过存储在缩句库中的所有烈性的文件，搜索引擎可以找到他们，我们可以在数据库布尔值的帮助下进行搜索。如果搜索“croquets”将会从Doc1和Doc2中返回两个结果，但是如果搜索“croquets和bitterballen”将只返回从Doc1结果。这样的结果会导致一个问题是你可能会获得太多或太少的结果。此外，它缺乏组织能力的结果。如果我们想要提高我们的方法，必须确定我们吗尅一使用其他存在/缺乏一个文档，你会使用页面要素组织结果。

　　2、带索引

　　一个相对简单的方法是使用带索引，一个web页面可风味不同的区域。想到一个标题，描述，作者和内容，通过在文档中添加一个内容，我们可以为每个文档计算出一个简单的评分，这个是搜索引擎用于确定页面主题的方法。

　　不同的区域有不同的重量，在搜索引擎的索引中根据这些区域的质量来确定网站在serp中排序。比如，标题(0.4)描述(0.1)内容(0.5)，比如我们执行以下搜索查询“croquets和bitterballen”，其中我们有一个文档被索引的值如下表格所示：

区域	内容	布尔	得分
标题	纽约咖啡馆	0	0
描述	美味的咖啡厅与croquets和bitterballen	1	0.1
内容	我们在纽约的餐厅供应croquets和bitterballen	1	0.5

　　因为在seo优化某些时候，站长朋友都开始滥用权重分配到描述，这就使得谷歌的身体分割在不同的区域和不同的权重分配到每个区域变得更加重要。

　　想要很好实现这些是相当困难的，因为在网络中包含具有不同结构的各种文档，但是如果使用XML文档就显得简答的多，它比html文件的结构和标签要丰富的多，这是的分析更加简单。当然在现在和html5中或许谷歌会支持它的一些微格式，但它仍然有它的局限性。例如，如果你知道，谷歌分配更多的重量内的< content >标记和内容在< footer >标签的内容，你将永远不会使用< footer >标签。

　　要确定页面的情况下，谷歌将不得将网页分割成快。通过这种方式，谷歌可以判断哪些数据块在页面上是重要的，哪些不是。可以使用的方法是比较文本/代码的比率。如果一个页面中包含更多的文本，html代码中半酣的主业内容在页面快上。如果页面快中包含许多的html代码/链接，有很少的内容，可能是菜单，这就是为什么选择正确的编辑器是非常重要的，因为某些编辑器使用很多不必要的HTML代码。

　　文本/代码比率的使用仅仅是一个搜索引擎可以使用的页面划分成块的方法之一。带索引方法的优点是，你可以很简单的计算为每个文档的得分。许多文件的缺点当然是可以得到相同的分数。

　　原创文章是是由：http://www.thebaiduseo.cn/news-19.html站长首发，转载请保留有效的链接地址，谢谢!

时间： 2024-08-30 03:21:23

搜索引擎基础算法如何确定返回结果之算法分析

搜索引擎基础算法如何确定返回结果之算法分析的相关文章

第二课笔记：搜索引擎基础知识和工作原理

搜索引擎核心算法：自然语言和布尔搜索

php四种基础算法代码实例_php实例

《SEO的艺术（原书第2版）》——第2章搜索引擎基础

过度追逐搜索引擎的算法导致关键词排名不稳定

追逐搜索引擎的算法太累做好SEO有更好的方法

解密搜索引擎的算法发展历程

想了解机器学习？你需要知道的十个基础算法

基础算法题，求思路和代码