《语义网基础教程(原书第3版)》—— 1.1 引言

1.1 引言

1.1.1 语义网的动机

“语义网”的主要愿景可以概括为一句话:使计算机更能解读万维网(to make the web more accessible to computers)。当前万维网是一个文字和图片网络,这些媒体对人而言很有用,但是计算机在目前的万维网上只发挥了非常有限的作用:它们索引关键词,将信息从服务器端传输到客户端,仅此而已。所有的智能工作(选择、组合、聚集等)必须通过人类读者来完成。如果我们能够使得万维网更适合机器处理,使得万维网上充满机器可读取、“可理解”的数据(data)将会如何?这样的一个万维网将有助于完成许多在当前万维网上不可行的事情:搜索(search)将不再局限于简单地查找关键词,而将变得更加语义化,包括查询同义词,识别同音异义词,并且考虑搜索查询的情境和意图。如果个人浏览agent能够理解一个网页的内容并将其裁剪为个人感兴趣的概述,网站将变得更加个性化(personalized)。通过当前用户的活动来动态确定哪些网页会是有用的目的地,而非为所有用户预先硬编码相同的链接,链接(linking)将变得更加语义化。跨网站集成(integrate)信息也将成为可能,而不像目前用户在某个网站发现了一些信息,只能“精神上复制–粘贴”到他们想要组合信息的另一个网站。

1.1.2 语义网的设计方案

着手构建一个更“语义的”万维网有多种方式。一种方式可以是构建一个“巨型Google”,依赖“数据不可思议的效力”来发现诸如词语之间、术语和情境之间的正确关联。我们在过去几年中已经见证了搜索引擎性能的停滞,这似乎暗示了此种方法存在缺陷:没有一个搜索巨头能够超越仅返回分散页面的简单扁平列表的情况。
语义网(或近年来被逐渐熟知的数据万维网)则遵循了不同的设计原则,可以概括如下:
1)使得结构化和半结构化的数据以标准化的格式在万维网上可用;
2)不仅制造数据集,还创建万维网上可解读的个体数据元素及其关系;
3)使用形式化模型来描述这些数据的隐含语义,使得这些隐含语义能够被机器处理。
决定利用结构化和半结构化数据基于一个关键的观察结论,即在当前无结构的“文本和图片万维网”之下实际上存在着大量结构化和半结构化数据。万维网的绝大部分内容正是从数据库和包含仔细结构化了的数据集的内容管理系统中产生的。然而,这些数据集中可用的富结构在结构化数据发布为人们可读的超文本标记语言(Hypertext Markup Language,HTML)页面的过程中几乎完全丢失了(参见图1-1)。一个关键认识在于,如果我们能发布和互联(interlink)底层的结构化数据集(而不仅是在底层结构丢失后发布和互联HTML页面),我们已经朝构建一个更加语义的万维网愿景迈进了一大步。

1.1.3 语义网的基础技术

之前提到的3个设计原则已经被转化为实际的技术,而本书的大部分内容将致力于介绍这些技术。
1)使用带标签的图(labeled graph)作为对象及其关系的数据模型,图中将对象作为节点,对象间的关系表示为边。使用被草草命名为“资源描述框架”(Resource Description Framework,RDF)的形式化模型来表示这种图结构。
2)使用万维网标识符(统一资源标识符(Uniform Resource Identifier,URI))来标识出现在数据集中的单个数据项以及它们之间的关系。这同样反映在RDF的设计中。
3)使用本体(ontology,简言之:类型和关系的层次化词汇表)作为数据模型来形式化地表达数据的隐含语义。诸如RDF模式(RDF schema)和万维网本体语言(Web Ontology Language,OWL)的形式化模型被用于该目的,同样也使用URI来表示类型和它们的属性。

1.1.4 从数据到知识

为了真正捕获数据的隐含语义,诸如RDF模式和OWL的形式化模型不仅是数据描述语言,实际上还是轻量级的知识表示(knowledge representation)语言,认识到这点很重要。它们是允许从显式声明的信息中推理出额外信息的“逻辑”。RDF模式是一种表达能力很弱的逻辑,它允许一些非常简单的推理,例如在一个类型层次上的属性继承、定义域/值域的类型推理。类似地,OWL是一种表达能力颇强(但依然相对轻量级)的逻辑,它允许更多的推理,例如等价和不等价、数量限制、对象的存在和其他。RDF模式和OWL中的这些推理为信息发布者提供了创建一个事实的最小下界的可能性,读者必须相信这些被发布的数据。此外,OWL为信息发布者提供了禁止信息阅读者相信被发布数据的某些事情的可能性(至少只要每个人打算与被发布的本体保持一致性)。
综上所述,在这些逻辑上执行推理相当于对发布数据的隐含语义同时施加了下界和上界。通过逐步精炼这些本体,这些下界和上界能够任意地靠近,因此为了始终精确地确认数据的隐含语义,在一定程度上需要直接提供用例。

1.1.5 语义网的万维网体系结构

传统万维网的一个重要方面在于它的内容是分布式的,不仅位置上是,所有权上也是:相互链接的网页经常存在于不同的万维网服务器,这些服务器位于不同的物理位置并由不同的组织所有。对万维网发展起到关键作用的是“任何人可以说关于任何事的任何话”,或更准确地说:任何人可以参考其他任何人的网页,而无须先协商允许,或征求合适的地址或标识符来使用。语义网也采用了类似的机制(参见图1-2):第一个组织可以在万维网上发布一个数据集(图1-2的左侧),第二个组织可以独立发布一个术语表(图1-2的右侧),而第三个组织可能会决定使用第二个组织发布的术语来标注第一个组织的对象,而无需经过他们中任何一方的允许,并且事实上这两个组织甚至都不知道这件事情。这种解耦合是语义网的万维网式特征的本质。

1.1.6 如何由此及彼

当然,需要一些重要步骤来实现上述愿景以及将上述体系结构原则变为可行的现实。
1)我们必须同意使用标准的语法来表示数据和元数据。
2)我们必须对元数据词汇表取得足够的共识,使得可以分享数据的隐含语义。
3)我们必须使用第1)步的格式和第2)步的词汇表来发布大量的数据。
20世纪(最早的语义网项目始于20世纪的最后几年),以上3个步骤都取得了实质性进展:RDF、RDF模式和OWL(以及它们的变种,例如RDFa、OWL2等)已经获得了万维网联盟(World Wide Web Consortium,W3C)的正式支持,将它们提升为万维网上的事实标准。数以千计的词汇表使用这些格式发布,并且这些词汇表间的汇聚已经开始发生,这既是自动化本体映射技术,也是社会和经济需求施压的结果(例如,schema.org词汇表的开发)。此外,链接数据云(Linked Data Cloud)的发展也使得数以十亿计使用共享的语法和词汇表的对象以及它们间的关系在线可用。

1.1.7 我们的现状

对比本书2003年出版第1版时的情况,许多基础构件已经就绪。许多快速成熟的技术支撑了语义网技术的所有部署阶段,商业领域和开放组织的真实案例的数目也在快速增长。但是,主要的挑战依然存在,例如应对持续增长的规模、降低使用的门槛,当然还有与信息系统中无所不在的“毒药”:语义异构性的斗争。

时间: 2024-10-03 05:07:57

《语义网基础教程(原书第3版)》—— 1.1 引言的相关文章

《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一2.3 数据清洗和变量格式化

2.3 数据清洗和变量格式化 本节我们考虑如何将特征矩阵列表menResMat转换为合适的格式以便于数据分析.目前,这些数据值都是字符型,这对于诸如找到参赛者年龄的中位数这样的数据分析是无益的.但是,我们可以利用as.numeric()函数很容易地将年龄转换为数值型.我们需要将整个矩阵都转换为数值型矩阵吗?事实并非如此,比如将参赛者的名字转换为数值型就毫无意义.为此,我们需要创建一个可以允许拥有不同类型变量的数据框.现在我们有6个变量:参赛者姓名.居住地.年龄以及3种类型的时间.正如刚才所说,我

2013年数据分析、数据挖掘、数据科学使用语言排行榜

 最受欢迎的语言仍然是R( KDnuggets 读者中有61%用户在用),python(39%),SQL(37%).SAS仍然稳定在20%之间.增长最快是:Pig/Hive/Hadoop为基础的语言.R.SQL,同时perl, C/C++, 与Unix 在下降.同时我们发现,R与python用户存在一定的重叠. 之前的KDnuggets的调查主要是关注:统计与分析软件,但有时候一个全面与强大的编程语言是需要的.这也是最近一次的KDnuggets调查关注的重点,我们咨询: 在2013年中,什么样的

手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南

前言 网页上的数据和信息正在呈指数级增长.如今我们都使用谷歌作为知识的首要来源--无论是寻找对某地的评论还是了解新的术语.所有这些信息都已经可以从网上轻而易举地获得. 网络中可用数据的增多为数据科学家开辟了可能性的新天地.我非常相信网页爬取是任何一个数据科学家的必备技能.在如今的世界里,我们所需的数据都在互联网上,使用它们唯一受限的是我们对数据的获取能力.有了本文的帮助,您定会克服这个困难. 网上大多数的可用数据并不容易获取.它们以非结构化的形式(HTML格式)表示,并且不能下载.因此,这便需要

一份语言选择指南带你玩数据科学,选出你心中支持的语言

更多深度文章,请关注:https://yq.aliyun.com/cloud 随着大数据时代的到来,网络每天会产生大量的数据,一些行业会对这些数据进行分析并协助企业不断地发展新业务.创建运营模式等,比如电子商务.推荐系统等.那么谁对这些大数据进行分析呢?对应的工作领域是数据科学(Data Science),该领域需要结合先进的统计知识.定量分析能力和编程能力.涉及到编程,大家都会面临一个问题,有太多的编程语言可供选择,那么哪些编程语言适合数据科学领域呢?虽然没有正确答案,但想成为一名成功的数据科

《数据科学实战手册(R+Python)》一第2章 汽车数据的可视化分析(R)

第2章 汽车数据的可视化分析(R) 数据科学实战手册(R+Python) 本章涵盖如下内容. 获取汽车燃料效率数据 为了你的第一个项目准备好R 将汽车燃料效率数据导入R 探索和描述燃料效率数据 进一步分析汽车燃料效率数据 研究汽车的产量以及车型 简介 本书介绍的第一个项目是分析汽车燃料经济数据.我们首先用R对该数据集进行分析.R常常被称为数据科学通用语言,因为它是目前最流行的统计和数据分析语言.在本书前半部分的各个章节中,你将会看到R在数据处理.建模.可视化方面的过人之处,并开发一些有用的脚本,

为何Python攀上数据科学巅峰?调查显示Python超越R

根据KDnuggets 2017年最新调查,Python生态系统已经超过了R,成为了数据分析.数据科学与机器学习的第一大语言.本文对KDnuggets的此项调查结果做了介绍,并补充了一篇文章讲解为何Python能成为数据科学领域最受欢迎的语言. Python vs R:2017 年调查结果 近日,KDnuggets 发起了一项调查,问题是: 你在 2016 年到现在是否使用过 R 语言.Python(以及它们的封装包),或是其他用于数据分析.数据科学与机器学习的工具? 预料之内的是,Python

R语言为Hadoop集群数据统计分析带来革命性变化

R作为开源的数据统计分析语言正潜移默化的在企业中扩大自己的影响力.特有的扩展插件可提供免费扩展,并且允许R语言引擎运行在Hadoop集群之上. R语言是主要用于统计分析.绘图的语言和操作环境.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发.(也因此称为R)现在由"R开发核心团队"负责开发.R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用 S语言编写的代码都可以不作修改的在R环境下运行.R的语法是来自Scheme. R的源

《R的极客理想——高级开发篇 A》一一1.3 概率基础和R语言

1.3 概率基础和R语言 问题如何用R语言学习概率? 引言R语言是统计语言,概率又是统计的基础,所以可以想到,R语言必然要从底层API上提供完整.方便.易用的概率计算的函数.下面就让R语言帮我们学好概率的基础课.1.3.1 随机变量介绍随机变量(random variable)表示随机现象各种结果的实值函数,定义在样本空间S上.由于它的自变量是随机试验的结果,而随机试验结果的出现具有随机性,因此,随机变量的取值具有一定的随机性.样本空间是随机试验的一切可能的基本结果组成的集合,记为S.样本空间的

为什么R语言是学习数据分析的第一选择

刚开始学习数据科学的人都会面对同一个问题: 不知道该先学习哪种编程语言. 不仅仅是编程语言,像Tableau,SPSS等软件系统也是同样的情况.有越来越多的工具和编程语言,很难知道该选择哪一种. 事实是,你的时间有限.学习一门新的编程语言相当于一项巨大的投资,因此在选择语言时需要有战略性. 很明显,一些语言会给你的投资带来很高的回报(付出的时间和金钱投资).然而其他语言可能是你每年只用几次的纯粹辅助工具. 我给你的建议就是:先学习R语言 专注于一种语言 在说明为什么你应该学习R语言之前,我想强调

《R的极客理想—工具篇》—— 2.1 R语言时间序列基础库zoo

2.1 R语言时间序列基础库zoo 问题 R语言怎么处理时间序列数据? 引言 时间序列分析是一种动态数据处理的统计方法,通过对时间序列数据的分析,我们可以感觉到世界正改变着什么!R语言作为统计分析的利器,对时间序列处理有着强大的支持.在R语言中,单独为时间序列数据定义了一种数据类型zoo,zoo是时间序列的基础,也是股票分析的基础.本节将介绍zoo库在R语言中的结构和使用. 2.1.1 zoo包介绍 zoo是一个R语言类库,zoo类库中定义了一个名为zoo的S3类型对象,用于描述规则的和不规则的