《谷歌语义搜索》一1.2 搜索如何工作

1.2 搜索如何工作

谷歌语义搜索
从小时候起,我就坚定地相信一条原则—要想理解任何一件事物的工作原理,你需要将它分解来看它的细节。这条适用于玩具的原则也非常适用于搜索。

谷歌页面上的搜索是基于后端的三个基本组件的复杂组合来构建的。

  • 一个蜘蛛(spider)或称网络爬虫(web crawler)。
  • 一个数据库(或者索引)。
  • 一个大型的计算机网络。
    与之对称的是另外三个看似基本的元素,事实上每当我们在谷歌搜索框中执行搜索时,它们的组合都会出现在前端,就在我们面前。
  • 一些搜索引擎结果页面(Search Engine Results Pages,SERPs)。
  • 在每个搜索结果页面从顶到底10个可用位置上的结果的一种分层排序[称为相关结果(organic result)]。
  • 一种使用了超过200种排序因素的排序算法。用数学方法将出现在谷歌搜索结果页面上用来回答一条搜索查询的每条结果放在一个最能反映谷歌对这条结果可以提供的答案所具有的信心的位置上。
    蜘蛛以惊人的速度在 Web 上穿行并收集它们在网页上找到的所有信息,将其取回并索引到谷歌的数据库中。接下来,谷歌的计算机网络提供能够匹配谷歌搜索框中的一条搜索查询的信息。这三个元素之间有很重要的相互依存的关系。如果没有一个高质量的蜘蛛,谷歌就没法索引可见 Web 上可以获得的海量信息。如果没有用来组织所有收集到的数据的数据库,就没法存储它们,而如果没有计算机网络,谷歌就没法像现在这样提供搜索结果。

事实上,这三个元素非常复杂。谷歌的蜘蛛以纳秒速度在整个 Web 上穿行,收集数TB(terabyte)的数据。它的索引能够可靠地分类和存储这些信息,同时它的计算机群能够保持 24/7 的稳定工作,即便像所有硬件一样,每天其中都有几万台会出故障。

组成搜索前端的三个元素同样有着重要的相互依存关系。如果没有搜索引擎结果页面(SERPs),谷歌就找不到实用的方式来为其信息索引提供一种可视化。如果没有页面的分层堆叠和它们中的每条结果的分层排序,就没有简单的方式来为一条搜索查询首先呈现最有可能的答案,然后才是次可能的,等等。最后,如果没有一个搜索排序算法,谷歌就没有任何把握能设法为其索引中的结果创建一个可以将它们呈现在搜索结果页面上的分层结构。

谷歌的做法和其他公司都不同。计算机、蜘蛛、索引、搜索排序算法和数据中心都具有一种突破性的和独特的体系结构。不同的国家可以用不同的语言提交不同的搜索查询,为了让这种组合变得有趣,我可以在谷歌的美国索引中用英文查询位于美国的信息,即便当我在上海时,我可以得到和我在美国时几乎相同的结果。

然而,尽管这一切相当复杂,整个前端操作都由那三个本质上很笨的元素组成。搜索结果页面呈现信息,分层排序传达一种对结果的信心的信号,排序算法决定每条结果应该出现在搜索结果页面中的什么位置,计算机网络为之服务。这些元素中的每一个都基于不间断、不休眠的、具有机器人般不知疲倦和聚焦视野的后端配置—它从不思考,只做要它做的事情,并在一定程度上做得很好。

这一切复杂性的最终结果是我们熟悉的谷歌搜索外观的简单性—10 个蓝色链接出现在SERPs中,每条带有一段简明的片段描述,并根据质量降序排列。

在一种情况下这个系统就不再按其被希望的那样来运转,即当人为干预—或者更确切地说,是人想要借势它的动机—开始影响SERPs上的结果排名,使得一些网站开始作为一条搜索查询的答案出现在一个远高于它们应有的位置时。

没有脑子的人都知道,如果搜索就是营销,并且如果搜索是我们在 Web 上浏览的唯一可行的方式,那么一家设法在搜索中排名高一点的公司将会受益巨大。与这些相关的经济回报使得借势谷歌的算法成为几乎整个搜索引擎优化产业的圣杯。

自从搜索出现以来,搜索引擎优化(Search Engine Optimization,SEO)专家们就使用与驱动搜索一致的数学逻辑来让他们的客户受益。人性就是这样,很自然地试着找到弱点来利用,搜索技术以及搜索中的数据评价方式都是如此。

谷歌和搜索引擎优化师之间的猫和老鼠的游戏,使得原先明显无能的在搜索中决定结果(即网站)排名的搜索算法在一定程度上变得更聪明了,用一种更聪明、更不易被那些理解搜索是如何运转的人所借势的方式对呈现的结果进行排序。

的确,对于谷歌引入的致力于提高搜索结果页面的质量和可信性的搜索程序的每一次更新,搜索引擎优化师们迟早能找到方法得到完全相反的结果来利用它。

每次谷歌引入一个改进、一个过滤器或者一种惩罚机制,SEO 就会对其进行实验测试来发现其缺陷和漏洞,推究其细节,然后便不可避免地借势它来得到可能比原本稍好一些的搜索排序结果。

理论上讲,这种轮回可以永远持续下去。谷歌可能已经能够修复其提供相关搜索结果页面排名的算法,但如果不改变其本质,对于SEO而言,只不过是又一个更大更笨的野兽,可用与过去相同的机制来掌控——也许基于一些新的组合,但仍会被研究、分析并最终被借势。

语义搜索的引入叫停了这一切。现在谷歌决定一个网站在搜索中排名的搜索排序算法所考虑的因素已经有了显著的扩展,包含的信息已经很难被借势。这便让搜索回到了它本来的功能:一种有用的导览 Web 上海量信息的手段,当然很自然地,这就引领我们可以去看一看底层原理,了解是什么让语义搜索活跃了起来。

时间: 2024-08-22 14:46:26

《谷歌语义搜索》一1.2 搜索如何工作的相关文章

《谷歌语义搜索》一1.4 没法再借势了

1.4 没法再借势了 谷歌语义搜索 搜索和借势搜索的企图就如同培根和鸡蛋或者饼干和牛奶一样形影不离.未经谷歌允许就从事了SEO的公司包括德国宝马(BMW)(它们被剔出了索引),以及杰西潘尼(JC Penney)和Overstock(它们都受到了惩罚).每一次的损失都是灾难性的,宝马品牌在其国内市场的Web上消失了:杰西潘尼和Overstock在谷歌降低它们Web排名后的三个月内遭受的损失差点让它们破产清算:尽管在下行市场中运作的它们更有可能面对各种各样的问题,但失去了在谷歌搜索第一页中的位置这一

《谷歌语义搜索》一第2章 什么是知识图谱2.1 一个知识引擎而非一个搜索引擎

第2章 什么是知识图谱 谷歌语义搜索 语义搜索基于知识图谱(Knowledge Graph).知识图谱让网站和人可以在新的谷歌搜索中被发现,它也成为了一种媒介,通过它你可以用一种新的营销方式来吸引潜在客户的注意力.在许多方面,知识图谱就是语义搜索的大脑. 在本章中,我们将看到知识图谱到底是什么,你怎样才可以被纳入其中,以及接下来这将怎样影响你在谷歌语义搜索中的现身. 2.1 一个知识引擎而非一个搜索引擎 谷歌语义搜索 任何曾经看过一集<星际迷航>(Star Trek)的人都知道,在"

《谷歌语义搜索》一导读

前 言 谷歌语义搜索 搜索正发生着变化.当然这不是一个新的话题.从某个角度来说,它从第一天起就在一条不断变化的轨迹上运动.然而如今,这条轨迹的弧线已经以更快的速度和更陡的角度来匹配Web. 事实上,不能认为搜索与 Web 是各自独立的,没有了搜索的 Web 无法正常运转.这种共生关系带来了各种各样的问题,因为它成为了一种推拉效应的一部分,其中,Web表示那些在其中积极工作的人们,他们想要将所有错误的东西都推出去,而搜索则想要把所有东西都拉进来. 当所有事物都进入 Web 之后,这场索引信息的争斗

《谷歌语义搜索》一2.5 知识图谱准备清单

2.5 知识图谱准备清单 谷歌语义搜索知识图谱依赖于谷歌搜索引擎机器人独立发现和索引的信息.这些信息需要被专门创建.这里的奥妙在于,过去创建针对搜索引擎优化的内容是为了人为提升一个网站的排名,所需要的只是正确的元标签.正确的关键词.正确的关键词位置.关键词的密度以及一些指向页面的链接,与此不同的是,现在创建的内容需要对终端用户具有真正的价值. 第1章的语义搜索准备清单的主要目的是关注公司的核心价值,现在它成为了你充分备战知识图谱的跳板. 知识图谱准备清单涉及以下步骤. 识别出你的业务产品或服务被

《谷歌语义搜索》一2.2 知识图谱怎样工作

2.2 知识图谱怎样工作 谷歌语义搜索一张图片胜过千言万语,那么就让我们通过图2.2来快速地理解基于数学的知识图谱的实际原理吧.这是当我们输入搜索查询"da vinci"时在背后所发生的. 例如,在图2.2中,词语"da vinci"不仅仅与诸如这个伟大的发明家的出生地点.出生日期等信息关联,也与他的当代艺术家和雕刻家.他的作品甚至是关于作品的一则艺术批评观点关联. 我希望你理解的是,一旦出现了这种关于一个主题的详尽的信息交叉引用,接下来需要的就是利用数学规则来得出

《谷歌语义搜索》一2.3 建立联系

2.3 建立联系 谷歌语义搜索我从不粉饰我在例子中所使用的"乡村般"的过去所呈现出的严重问题-例如不平等性.不透明性.不负责性以及腐败.在这个过去中,联系并非总是由精英建立起来的,因而当然地,购买选择经常演变为两害相权取其轻,因为竞争和选择并不是备受尊重的概念. 关键点在于在这之后是什么,只要竞争和选择受到了关注,那就是一个进步,但这也造成了一种匿名性(facelessness),这也产生了一些问题-一些现在才去解决的问题. 为了理解在一个全新的语义世界中如何建立这些联系,让我们再看一

《谷歌语义搜索》一第1章 什么是语义搜索1.1 向语义搜索迁移

第1章 什么是语义搜索 谷歌语义搜索搜索是我们在 Web 上浏览的途径.如果你的业务在搜索中不可见的话,它就很难被你的客户发现.搜索首先是一种营销,并正经历着一场巨大的变革. 在本章中,我们讨论谷歌搜索中出现的新元素.为什么会发生这种变化以及它将如何以你能想到的几乎每种方式来影响你的业务.本章提供一份清单,罗列了你为了能利用上即将到来的变化而需要去做的每件事情,并且本章的每一节帮助你理解你需要做些什么才能充分利用谷歌的语义搜索. 1.1 向语义搜索迁移 谷歌语义搜索如今,当我在谷歌的搜索框中敲入

《谷歌语义搜索》一1.5 语义搜索准备清单

1.5 语义搜索准备清单 谷歌语义搜索很矛盾的是,利用语义搜索需要回归到基本价值.我在这儿详细说明这一点,正表明了在过去10年中,我们在赶上搜索引擎的技术变化并领先于它们的限制的竞赛中,已经偏离赛道很远了. 真正的搜索在于提供有价值的信息,那些寻找它的人真正需要的信息.这并不是说"优化"策略就再也没有空间了,事实上恰恰相反.Web 设计.浏览器技术和搜索索引的复杂性形成了一些需要优化来战胜的挑战.为了节省时间.金钱并取得想要的结果,搜索的分裂化需要一个真正的策略. 语义搜索准备清单包括

谷歌和微软呈现出差异化搜索战略

10月22日,社交网络的兴起,曾使谷歌为之惶恐,这家搜索巨头此前也在社交网络搜索领域做出过努力.但现在,在搜索引擎战略方面,谷歌却开始逐渐淡化社交搜索功能,而作为其竞争对手,微软必应却一直致力于社交网络搜索,两家搜索巨头呈现出了差异化搜索战略,以下为文章全文: 在不久之前,谷歌和微软必应似乎都倾全力专注于为各自搜索引擎增添尽可能多的社交功能.对谷歌而言,这也就意味着为其搜索引擎增加Google++功能.对微软必应来讲,则意味着最大程度搞好微软与Facebook独家合作关系.但从那时起,似乎这两家