1.1 引言
1.1.1 语义网的动机
“语义网”的主要愿景可以概括为一句话:使计算机更能解读万维网(to make the web more accessible to computers)。当前万维网是一个文字和图片网络,这些媒体对人而言很有用,但是计算机在目前的万维网上只发挥了非常有限的作用:它们索引关键词,将信息从服务器端传输到客户端,仅此而已。所有的智能工作(选择、组合、聚集等)必须通过人类读者来完成。如果我们能够使得万维网更适合机器处理,使得万维网上充满机器可读取、“可理解”的数据(data)将会如何?这样的一个万维网将有助于完成许多在当前万维网上不可行的事情:搜索(search)将不再局限于简单地查找关键词,而将变得更加语义化,包括查询同义词,识别同音异义词,并且考虑搜索查询的情境和意图。如果个人浏览agent能够理解一个网页的内容并将其裁剪为个人感兴趣的概述,网站将变得更加个性化(personalized)。通过当前用户的活动来动态确定哪些网页会是有用的目的地,而非为所有用户预先硬编码相同的链接,链接(linking)将变得更加语义化。跨网站集成(integrate)信息也将成为可能,而不像目前用户在某个网站发现了一些信息,只能“精神上复制–粘贴”到他们想要组合信息的另一个网站。
1.1.2 语义网的设计方案
着手构建一个更“语义的”万维网有多种方式。一种方式可以是构建一个“巨型Google”,依赖“数据不可思议的效力”来发现诸如词语之间、术语和情境之间的正确关联。我们在过去几年中已经见证了搜索引擎性能的停滞,这似乎暗示了此种方法存在缺陷:没有一个搜索巨头能够超越仅返回分散页面的简单扁平列表的情况。
语义网(或近年来被逐渐熟知的数据万维网)则遵循了不同的设计原则,可以概括如下:
1)使得结构化和半结构化的数据以标准化的格式在万维网上可用;
2)不仅制造数据集,还创建万维网上可解读的个体数据元素及其关系;
3)使用形式化模型来描述这些数据的隐含语义,使得这些隐含语义能够被机器处理。
决定利用结构化和半结构化数据基于一个关键的观察结论,即在当前无结构的“文本和图片万维网”之下实际上存在着大量结构化和半结构化数据。万维网的绝大部分内容正是从数据库和包含仔细结构化了的数据集的内容管理系统中产生的。然而,这些数据集中可用的富结构在结构化数据发布为人们可读的超文本标记语言(Hypertext Markup Language,HTML)页面的过程中几乎完全丢失了(参见图1-1)。一个关键认识在于,如果我们能发布和互联(interlink)底层的结构化数据集(而不仅是在底层结构丢失后发布和互联HTML页面),我们已经朝构建一个更加语义的万维网愿景迈进了一大步。
1.1.3 语义网的基础技术
之前提到的3个设计原则已经被转化为实际的技术,而本书的大部分内容将致力于介绍这些技术。
1)使用带标签的图(labeled graph)作为对象及其关系的数据模型,图中将对象作为节点,对象间的关系表示为边。使用被草草命名为“资源描述框架”(Resource Description Framework,RDF)的形式化模型来表示这种图结构。
2)使用万维网标识符(统一资源标识符(Uniform Resource Identifier,URI))来标识出现在数据集中的单个数据项以及它们之间的关系。这同样反映在RDF的设计中。
3)使用本体(ontology,简言之:类型和关系的层次化词汇表)作为数据模型来形式化地表达数据的隐含语义。诸如RDF模式(RDF schema)和万维网本体语言(Web Ontology Language,OWL)的形式化模型被用于该目的,同样也使用URI来表示类型和它们的属性。
1.1.4 从数据到知识
为了真正捕获数据的隐含语义,诸如RDF模式和OWL的形式化模型不仅是数据描述语言,实际上还是轻量级的知识表示(knowledge representation)语言,认识到这点很重要。它们是允许从显式声明的信息中推理出额外信息的“逻辑”。RDF模式是一种表达能力很弱的逻辑,它允许一些非常简单的推理,例如在一个类型层次上的属性继承、定义域/值域的类型推理。类似地,OWL是一种表达能力颇强(但依然相对轻量级)的逻辑,它允许更多的推理,例如等价和不等价、数量限制、对象的存在和其他。RDF模式和OWL中的这些推理为信息发布者提供了创建一个事实的最小下界的可能性,读者必须相信这些被发布的数据。此外,OWL为信息发布者提供了禁止信息阅读者相信被发布数据的某些事情的可能性(至少只要每个人打算与被发布的本体保持一致性)。
综上所述,在这些逻辑上执行推理相当于对发布数据的隐含语义同时施加了下界和上界。通过逐步精炼这些本体,这些下界和上界能够任意地靠近,因此为了始终精确地确认数据的隐含语义,在一定程度上需要直接提供用例。
1.1.5 语义网的万维网体系结构
传统万维网的一个重要方面在于它的内容是分布式的,不仅位置上是,所有权上也是:相互链接的网页经常存在于不同的万维网服务器,这些服务器位于不同的物理位置并由不同的组织所有。对万维网发展起到关键作用的是“任何人可以说关于任何事的任何话”,或更准确地说:任何人可以参考其他任何人的网页,而无须先协商允许,或征求合适的地址或标识符来使用。语义网也采用了类似的机制(参见图1-2):第一个组织可以在万维网上发布一个数据集(图1-2的左侧),第二个组织可以独立发布一个术语表(图1-2的右侧),而第三个组织可能会决定使用第二个组织发布的术语来标注第一个组织的对象,而无需经过他们中任何一方的允许,并且事实上这两个组织甚至都不知道这件事情。这种解耦合是语义网的万维网式特征的本质。
1.1.6 如何由此及彼
当然,需要一些重要步骤来实现上述愿景以及将上述体系结构原则变为可行的现实。
1)我们必须同意使用标准的语法来表示数据和元数据。
2)我们必须对元数据词汇表取得足够的共识,使得可以分享数据的隐含语义。
3)我们必须使用第1)步的格式和第2)步的词汇表来发布大量的数据。
20世纪(最早的语义网项目始于20世纪的最后几年),以上3个步骤都取得了实质性进展:RDF、RDF模式和OWL(以及它们的变种,例如RDFa、OWL2等)已经获得了万维网联盟(World Wide Web Consortium,W3C)的正式支持,将它们提升为万维网上的事实标准。数以千计的词汇表使用这些格式发布,并且这些词汇表间的汇聚已经开始发生,这既是自动化本体映射技术,也是社会和经济需求施压的结果(例如,schema.org词汇表的开发)。此外,链接数据云(Linked Data Cloud)的发展也使得数以十亿计使用共享的语法和词汇表的对象以及它们间的关系在线可用。
1.1.7 我们的现状
对比本书2003年出版第1版时的情况,许多基础构件已经就绪。许多快速成熟的技术支撑了语义网技术的所有部署阶段,商业领域和开放组织的真实案例的数目也在快速增长。但是,主要的挑战依然存在,例如应对持续增长的规模、降低使用的门槛,当然还有与信息系统中无所不在的“毒药”:语义异构性的斗争。