第1章 什么是语义搜索
谷歌语义搜索
搜索是我们在 Web 上浏览的途径。如果你的业务在搜索中不可见的话,它就很难被你的客户发现。搜索首先是一种营销,并正经历着一场巨大的变革。
在本章中,我们讨论谷歌搜索中出现的新元素、为什么会发生这种变化以及它将如何以你能想到的几乎每种方式来影响你的业务。本章提供一份清单,罗列了你为了能利用上即将到来的变化而需要去做的每件事情,并且本章的每一节帮助你理解你需要做些什么才能充分利用谷歌的语义搜索。
1.1 向语义搜索迁移
谷歌语义搜索
如今,当我在谷歌的搜索框中敲入一条搜索查询之后,我会异乎寻常地感觉到屏幕的另一侧有一种智能给了我答案。以前可不是这样的,而如今我所感觉到的这种智能是搜索技术领域从未取得过的、最具突破性的进展之一。当然,就像手机和3D电视一样,其概念并不是全新的,并且差一点就没能成为现实。
一本关于语义搜索的书不可避免地会以“语义搜索究竟是什么”这样平淡无奇的问题作为开篇语。答案可能极具技术性并且复杂难懂,它可以包含数学甚至一些哲学概念(当它们适用于数学时),但本书并不打算从技术的角度来简单地满足你的好奇心。我在本书中给出的关于语义搜索的一些解释在某种程度上是有所局限的,但它们为帮助你更好地理解语义搜索提供了一切所需。
我是“知识就是力量”的坚定信徒—但仅当知识可以被理解的时候。因此,如果有时候我简化了一些技术细节以至于语义搜索听起来有点过于简单了,是因为我渴望达成你阅读这本书的原因:找出你需要做些什么来帮助你的业务在Web上取得更大的曝光度。
为了弥补这一简化,我在书的末尾提供了完整的参考资料和学术文献,其中大部分可以在Web上免费获取并为你营造许多个晚间阅读的快乐时光。那么不再多说,让我们来看看什么是语义搜索以及为什么它是我们数字世界中的一件大事情。
“语义”是一个希腊语词汇,意指“含义”,语义领域一直忙于研究词语的含义和逻辑语用。在Web搜索中,语义搜索标志着一种过渡—从面向以一定概率值包含我们所找信息的单一网页的“笨”搜索,过渡到一种能够提供真正答案或将我们引向一个与我们使用的搜索查询无关并且在过去传统的关键词触发的结果中不会出现的一个网页上的智能搜索。
语义搜索作为一个概念,起源于常被称为互联网之父1的 Tim Berners-Lee 在2001 年《科学美国人》(Scientific American)上发表的一篇文章。其中,他解释了语义搜索的本质是通过数学来摆脱当今搜索中使用的猜测和近似,并为词语的含义以及它们如何关联到我们在搜索引擎输入框中所找的东西引进一种清晰的理解方式。
从概念上讲,语义搜索最多就是这些。这一改变允许我们做出过渡—从一个链接之网——带给我们一些继而不得不在搜索要找的信息时人工检查的可能答案,过渡到一个答案之网——这些答案是从海量数据的复杂关联和交互中综合得到的,基本上就出现在页面上等待我们立即阅读,或者最多通过点一次鼠标就能获取。
前语义时代的 Web 传送的是一些链接,它们出现在搜索结果中是因为它们表示的页面包含了关键词。语义 Web 传送的是与我们在搜索中键入的问题直接相关的确切答案和页面。
尽管这作为一种过渡可能听起来很简单,但实际并非如此,证据在于当这个概念得以传播了十几年之后,我们才只是刚刚开始直面语义搜索这一现实。语义搜索如此难以实现的原因涉及只有回想起来才觉得是显然的两个因素。第一个是数据。要让一个搜索算法能搞清楚在搜索框中输入的一个词汇的含义并“理解”它,所需要的与之相关的数据量都远超出当前我们已准备好存取的量。更重要的是,不仅仅需要数据,也需要一种有意义的排序和分类,这些处理数据的方式使其从人的角度而言开始变得有意义。
第二个原因是可伸缩性。要让语义搜索在组成 Web 的数以万亿的页面上运转,只能以一种既不需要人的介入又能保证搜索结果质量的方式来扩展到这个数量级。这里的难点在于搜索的质量一直在被人为地一点点微调。当你我执行了一次搜索,并且翻阅了五六页的链接也没能找到我们问题的确切答案之后,我们便很不高兴,并回去重新搜索一次。通过改善自己的搜索查询,我们控制着查找的准确性。搜索中不准确的结果经常是由不够精确的搜索查询导致的。
“关键词”作为搜索返回结果所依赖的途径,对于想要在搜索中排名更高的业务、想要更快地获得更精确结果的个人以及有时候向出价最高者售卖服务的 SEO专家而言,已经进入了他们的字典里。
我们在搜索中由于所用搜索词含义的误解会得到不精确的结果,这没什么大不了的,因为我们知道无论如何我们总能钻取到要找的信息。人的大脑和眼睛可以快速理解一个网页上呈现的内容,并用一种计算机做不到的方式来决定其是否包含要找的答案。这种低效的方法也能作为应对错误和虚假信息的一种质量保障。
为了更好地说明这一点,以一次传统的搜索为例,例如“肉毒杆菌”(Botulinum),会得到一些页面描述其作为人类已知的最致命的物质之一的功效,同时也描述了它在整容手术中作为肉毒杆菌霉素(Botox)使用。接下来,我作为一个操作员,可以确切地决定我在找什么—是让自己身中剧毒的方法,还是一种消除时间的痕迹并让我重回青春容颜的方法。在这种搜索中,执行搜索的人也在过滤相关结果。
语义搜索认识到了这个搜索词大多指的是那种毒素而不是肉毒杆菌霉素,从而使搜索结果不再含有歧义,并在页面上提供我所需要的答案。它是通过我们即将了解到的一些方式来计算相关的数据从而做到这一点的。问题的关键在于,类似这样的答案中的错误更难被发现,因而使它们可能更具灾难性。
当你用来找东西的搜索引擎从一个搜索引擎变为一个答案引擎之后,得以建立或摧毁整座大厦的就是我们愿意给予我们所得到的答案的信任。例如,可能要不了几个错误就会导致谷歌品牌在搜索领域中的彻底毁灭,以及声誉乃至市场的丧失—那可是花费了超过15年的持续努力才建立起来的。
语义搜索花了这么长时间才最终到来的一个原因是风险很高而对错误的容忍又非常有限。当然,其他原因还涉及与之相关的限制因素,而这些首先是被语义搜索正在取代的搜索技术现状所定义的。
1原文误称Tim Berners-Lee是互联网(Internet)之父,事实上应该是万维网(Web)之父。互联网之父一般是指Vint Cerf和Bob Kahn。——译者注