《谷歌语义搜索》一第1章 什么是语义搜索1.1 向语义搜索迁移

第1章 什么是语义搜索

谷歌语义搜索
搜索是我们在 Web 上浏览的途径。如果你的业务在搜索中不可见的话,它就很难被你的客户发现。搜索首先是一种营销,并正经历着一场巨大的变革。

在本章中,我们讨论谷歌搜索中出现的新元素、为什么会发生这种变化以及它将如何以你能想到的几乎每种方式来影响你的业务。本章提供一份清单,罗列了你为了能利用上即将到来的变化而需要去做的每件事情,并且本章的每一节帮助你理解你需要做些什么才能充分利用谷歌的语义搜索。

1.1 向语义搜索迁移

谷歌语义搜索
如今,当我在谷歌的搜索框中敲入一条搜索查询之后,我会异乎寻常地感觉到屏幕的另一侧有一种智能给了我答案。以前可不是这样的,而如今我所感觉到的这种智能是搜索技术领域从未取得过的、最具突破性的进展之一。当然,就像手机和3D电视一样,其概念并不是全新的,并且差一点就没能成为现实。

一本关于语义搜索的书不可避免地会以“语义搜索究竟是什么”这样平淡无奇的问题作为开篇语。答案可能极具技术性并且复杂难懂,它可以包含数学甚至一些哲学概念(当它们适用于数学时),但本书并不打算从技术的角度来简单地满足你的好奇心。我在本书中给出的关于语义搜索的一些解释在某种程度上是有所局限的,但它们为帮助你更好地理解语义搜索提供了一切所需。

我是“知识就是力量”的坚定信徒—但仅当知识可以被理解的时候。因此,如果有时候我简化了一些技术细节以至于语义搜索听起来有点过于简单了,是因为我渴望达成你阅读这本书的原因:找出你需要做些什么来帮助你的业务在Web上取得更大的曝光度。

为了弥补这一简化,我在书的末尾提供了完整的参考资料和学术文献,其中大部分可以在Web上免费获取并为你营造许多个晚间阅读的快乐时光。那么不再多说,让我们来看看什么是语义搜索以及为什么它是我们数字世界中的一件大事情。

“语义”是一个希腊语词汇,意指“含义”,语义领域一直忙于研究词语的含义和逻辑语用。在Web搜索中,语义搜索标志着一种过渡—从面向以一定概率值包含我们所找信息的单一网页的“笨”搜索,过渡到一种能够提供真正答案或将我们引向一个与我们使用的搜索查询无关并且在过去传统的关键词触发的结果中不会出现的一个网页上的智能搜索。

语义搜索作为一个概念,起源于常被称为互联网之父1的 Tim Berners-Lee 在2001 年《科学美国人》(Scientific American)上发表的一篇文章。其中,他解释了语义搜索的本质是通过数学来摆脱当今搜索中使用的猜测和近似,并为词语的含义以及它们如何关联到我们在搜索引擎输入框中所找的东西引进一种清晰的理解方式。

从概念上讲,语义搜索最多就是这些。这一改变允许我们做出过渡—从一个链接之网——带给我们一些继而不得不在搜索要找的信息时人工检查的可能答案,过渡到一个答案之网——这些答案是从海量数据的复杂关联和交互中综合得到的,基本上就出现在页面上等待我们立即阅读,或者最多通过点一次鼠标就能获取。

前语义时代的 Web 传送的是一些链接,它们出现在搜索结果中是因为它们表示的页面包含了关键词。语义 Web 传送的是与我们在搜索中键入的问题直接相关的确切答案和页面。

尽管这作为一种过渡可能听起来很简单,但实际并非如此,证据在于当这个概念得以传播了十几年之后,我们才只是刚刚开始直面语义搜索这一现实。语义搜索如此难以实现的原因涉及只有回想起来才觉得是显然的两个因素。第一个是数据。要让一个搜索算法能搞清楚在搜索框中输入的一个词汇的含义并“理解”它,所需要的与之相关的数据量都远超出当前我们已准备好存取的量。更重要的是,不仅仅需要数据,也需要一种有意义的排序和分类,这些处理数据的方式使其从人的角度而言开始变得有意义。

第二个原因是可伸缩性。要让语义搜索在组成 Web 的数以万亿的页面上运转,只能以一种既不需要人的介入又能保证搜索结果质量的方式来扩展到这个数量级。这里的难点在于搜索的质量一直在被人为地一点点微调。当你我执行了一次搜索,并且翻阅了五六页的链接也没能找到我们问题的确切答案之后,我们便很不高兴,并回去重新搜索一次。通过改善自己的搜索查询,我们控制着查找的准确性。搜索中不准确的结果经常是由不够精确的搜索查询导致的。

“关键词”作为搜索返回结果所依赖的途径,对于想要在搜索中排名更高的业务、想要更快地获得更精确结果的个人以及有时候向出价最高者售卖服务的 SEO专家而言,已经进入了他们的字典里。

我们在搜索中由于所用搜索词含义的误解会得到不精确的结果,这没什么大不了的,因为我们知道无论如何我们总能钻取到要找的信息。人的大脑和眼睛可以快速理解一个网页上呈现的内容,并用一种计算机做不到的方式来决定其是否包含要找的答案。这种低效的方法也能作为应对错误和虚假信息的一种质量保障。

为了更好地说明这一点,以一次传统的搜索为例,例如“肉毒杆菌”(Botulinum),会得到一些页面描述其作为人类已知的最致命的物质之一的功效,同时也描述了它在整容手术中作为肉毒杆菌霉素(Botox)使用。接下来,我作为一个操作员,可以确切地决定我在找什么—是让自己身中剧毒的方法,还是一种消除时间的痕迹并让我重回青春容颜的方法。在这种搜索中,执行搜索的人也在过滤相关结果。

语义搜索认识到了这个搜索词大多指的是那种毒素而不是肉毒杆菌霉素,从而使搜索结果不再含有歧义,并在页面上提供我所需要的答案。它是通过我们即将了解到的一些方式来计算相关的数据从而做到这一点的。问题的关键在于,类似这样的答案中的错误更难被发现,因而使它们可能更具灾难性。

当你用来找东西的搜索引擎从一个搜索引擎变为一个答案引擎之后,得以建立或摧毁整座大厦的就是我们愿意给予我们所得到的答案的信任。例如,可能要不了几个错误就会导致谷歌品牌在搜索领域中的彻底毁灭,以及声誉乃至市场的丧失—那可是花费了超过15年的持续努力才建立起来的。

语义搜索花了这么长时间才最终到来的一个原因是风险很高而对错误的容忍又非常有限。当然,其他原因还涉及与之相关的限制因素,而这些首先是被语义搜索正在取代的搜索技术现状所定义的。

1原文误称Tim Berners-Lee是互联网(Internet)之父,事实上应该是万维网(Web)之父。互联网之父一般是指Vint Cerf和Bob Kahn。——译者注

时间: 2024-09-20 06:34:24

《谷歌语义搜索》一第1章 什么是语义搜索1.1 向语义搜索迁移的相关文章

wordpress当分类列表或搜索结果只有一篇文章时直接跳转到该文章页面

当分类列表只有一篇文章时直接跳转到该文章页面 当分类下只有一篇文章时能不能直接跳转到该文章页面,答案是可以的,方法的搜索结果是一下的,区别是把判断当前页面是搜索结果页面改为是分类列表页面即可,修改后的代码如下. 把下面的代码添加到主题的functions.php文件: function category_jump_page() { //定义函数  if(is_category()) { //判断是否是分类列表页面   global $wp_query; //定义全局变量   if ($wp_qu

WordPress实现搜索结果只有一篇文章时自动跳转到文章

当读者通过WordPress自身的搜索功能来搜索文章时,如果返回的结果只有一篇文章,我们可以直接让它跳转到这篇文章,提高用户体验. 实现的方法很简单,只需要在你主题的 functions.php 文件中添加下面的代码:  代码如下 复制代码 add_action('template_redirect', 'redirect_single_post'); function redirect_single_post() {     if (is_search()) {         global

网站长及SEO人员如何写原创文章

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 写原创文章是站长及SEO人员必做的事情,有如每天吃饭.穿衣一点都不能马虎.可往往这件看似简单的事情,却令不少网站长及SEO人员头痛.因为不知道原创文章怎么写,写出来的文章非原创不能被百度收录!其实我觉得这些站长及SEO人员对写原创文章认识上不够,总是觉得难写就应付.敷衍.这里抄一点,那里复制一点,草草了事就提交给百度了.让百度蜘蛛抓取时有一种

《谷歌语义搜索》一第2章 什么是知识图谱2.1 一个知识引擎而非一个搜索引擎

第2章 什么是知识图谱 谷歌语义搜索 语义搜索基于知识图谱(Knowledge Graph).知识图谱让网站和人可以在新的谷歌搜索中被发现,它也成为了一种媒介,通过它你可以用一种新的营销方式来吸引潜在客户的注意力.在许多方面,知识图谱就是语义搜索的大脑. 在本章中,我们将看到知识图谱到底是什么,你怎样才可以被纳入其中,以及接下来这将怎样影响你在谷歌语义搜索中的现身. 2.1 一个知识引擎而非一个搜索引擎 谷歌语义搜索 任何曾经看过一集<星际迷航>(Star Trek)的人都知道,在"

《谷歌语义搜索》一导读

前 言 谷歌语义搜索 搜索正发生着变化.当然这不是一个新的话题.从某个角度来说,它从第一天起就在一条不断变化的轨迹上运动.然而如今,这条轨迹的弧线已经以更快的速度和更陡的角度来匹配Web. 事实上,不能认为搜索与 Web 是各自独立的,没有了搜索的 Web 无法正常运转.这种共生关系带来了各种各样的问题,因为它成为了一种推拉效应的一部分,其中,Web表示那些在其中积极工作的人们,他们想要将所有错误的东西都推出去,而搜索则想要把所有东西都拉进来. 当所有事物都进入 Web 之后,这场索引信息的争斗

《谷歌语义搜索》一2.3 建立联系

2.3 建立联系 谷歌语义搜索我从不粉饰我在例子中所使用的"乡村般"的过去所呈现出的严重问题-例如不平等性.不透明性.不负责性以及腐败.在这个过去中,联系并非总是由精英建立起来的,因而当然地,购买选择经常演变为两害相权取其轻,因为竞争和选择并不是备受尊重的概念. 关键点在于在这之后是什么,只要竞争和选择受到了关注,那就是一个进步,但这也造成了一种匿名性(facelessness),这也产生了一些问题-一些现在才去解决的问题. 为了理解在一个全新的语义世界中如何建立这些联系,让我们再看一

《谷歌语义搜索》一1.2 搜索如何工作

1.2 搜索如何工作 谷歌语义搜索从小时候起,我就坚定地相信一条原则-要想理解任何一件事物的工作原理,你需要将它分解来看它的细节.这条适用于玩具的原则也非常适用于搜索. 谷歌页面上的搜索是基于后端的三个基本组件的复杂组合来构建的. 一个蜘蛛(spider)或称网络爬虫(web crawler). 一个数据库(或者索引). 一个大型的计算机网络.与之对称的是另外三个看似基本的元素,事实上每当我们在谷歌搜索框中执行搜索时,它们的组合都会出现在前端,就在我们面前. 一些搜索引擎结果页面(Search

语义搜索技术能否超越谷歌

<红鲱鱼>杂志近日发表分析文章称,越来越多的创业者和投资者对于下一代网络技术--"语义网"(semantic web)寄予厚望,认为它可以帮助用户更加方便.快捷地查找信息,从而有望超越当前的网络搜索巨头谷歌. 什么是语义网 语义网的基础是一种新型搜索技术,通过这一技术,用户只需使用日常语言输入问题,就可以获得想要的答案.下一代搜索引擎的开发者认为,他们的技术能"理解"用户所使用的语言,在这方面远远强于谷歌的技术.新型搜索引擎随后遍历一个覆盖所有互联网内容

搜索背后的奥秘——浅谈语义主题计算

摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联.对语义关联的挖掘,可以让我们的搜索更加智能化.本文着重介绍了一个语义挖掘的利器:主题模型.主题模型是对文字隐含主题进行建模的方法.它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题.近些年来各大互联网公司都开始了这方面的探索和尝试.就让我们看一下究竟吧. 关键词:主题模型 技术领域:搜索技术.自然语言处理 假设有两个句子,我们想知道它们之间是否相关联: 第一个是: