《中国人工智能学会通讯》——6.12 链接数据应用

6.12 链接数据应用

搜索引擎优化

RDFa、JSON-LD 和 HTML Microdata 等技术为网页提供语义内容和链接数据的嵌入。一方面,各网站为了优化搜索引擎中有关自身的搜索结果,有遵循这些标准的动因;另外一方面,这也大大简化了搜索引擎构建高质量知识图谱的成本。结构化的链接数据实现了搜索内容的语义化,使得搜索引擎能够更加精准地匹配用户的搜索语义,实现更好的用户体验[16] 。

智能问答

链接数据也能提高智能问答的质量[56] 。结构化链接数据的引入可以用来优化传统问答系统的各个环节。通过在语音识别环节引入链接数据,增强训练的效果;在语义理解环节,提高语义解析和实体识别的精度;在信息获取环节,直接支持语义搜索等[57-58] 。

物联网与语义互操作

语义和链接数据也可用于在物联网领域实现传感设备之间的语义互操作。这方面典型的实践包括OneM2M [59] 和 W3C 的 Web of Things 兴趣组。在OneM2M 中,语义技术被用来实现 M2M 设备抽象和设备数据的语义封装,这有助于将 M2M 应用与具体设备解耦,让设备数据更容易被及其理解,增强设备数据之间的互联等[60] 。

领域应用

链接数据的方法也在大量具体领域中得到应用,其中生物医学是语义网和链接数据比较深入的应用领域之一。W3C 在语义网早期就成立医疗和生命科学兴趣组,并在药物发现[61] 、转化医学 [62]等领域的推广应用方面做出贡献。其他更为具体的应用领域,包括基础生物 Bio2RDF、化合物 ChEBI、生 物 传 导 路 径 BioPax、 药 物 SO-Pharm、 临 床ECTO、电子病历 iSMART、中医药 DartGrid 等。

在电商领域,Schema.org 已经支持对产品的描述。GoodRelation 是专门为电商设计的链接词汇集[63] ,可用于电商产品的搜索引擎优化。LOC(LinkedOpenCommerce) [64] 是一个大型的商品链接数据集。在金融领域,链接数据被用来组织和管理财务报表[65] 。FIBO(Financial IndustrialBusiness Ontology)的目标是要构建金融领域的语义知识库[66] 。在公共安全领域,链接数据被用来将各种来源的情报资源关联和链接起来,用于反恐和破案等[67] 。LOD 项目中包含有大量来自不同领域的开放链接数据集。

时间: 2025-01-31 01:35:46

《中国人工智能学会通讯》——6.12 链接数据应用的相关文章

《中国人工智能学会通讯》——12.51 现有知识图谱资源

12.51 现有知识图谱资源 知识图谱经历了由人工和群体智慧构建,到面向互联网利用机器学习和信息抽取技术自动获取的过程.根据信息来源和获取方式的不同,目前的知识图谱分为以下几类. 依靠人工构建的知识资源 早期知识资源建立是通过人工添加和群体智能合作编辑得到,如英文 Wordnet [1] 和 Cyc 项目[2] ,以及中文的Hownet.Cyc 是一个通用的世界知识库,始建于 1984 年,其目的是将上百万条知识编码为机器可处理形式,并在此基础上实现知识推理等人工智能相关任务.Cyc 包含了 5

《中国人工智能学会通讯》——12.33 众包知识库补全方法概览

12.33 众包知识库补全方法概览 本章介绍众包知识库补全的方法概览,如图 1所示.其基本思想包含两个部分,其一,利用多种数据源,如现有的多个知识库.Web 结构化数据等,提取知识数据,并将不同数据源的知识数据融合起来,以此补全知识库:其二,在融合的过程中有效地利用众包,通过众包模型细化出具体可供众包完成的任务,利用众包优化算法进行质量和成本的控制,以选择出最优的任务发布到众包平台,如美国亚马逊公司的 Mechanical Turk ( 简称 MTurk) 1 . 知识抽取:提出利用多类数据源进

《中国人工智能学会通讯》——12.54 知识图谱应用

12.54 知识图谱应用 Google 最初提出知识图谱是为了增强搜索结果,改善用户搜索体验,知识图谱的应用远不止这些,基于知识图谱的服务和应用是当前的一大研究热点.按照应用方式可以分为语义搜索.知识问答,以及基于知识的大数据分析与决策等. 语义搜索:利用知识图谱所具有的良好定义的结构形式,以有向图的方式提供满足用户需求的结构化语义内容,主要包括 RDF 和 OWL 的语义搜索引擎和基于链接数据的搜索等[35] .语义搜索利用建立大规模知识库对用户搜索关键词和文档内容进行语义标注,改善搜索结果[

《中国人工智能学会通讯》——12.48 混合型数据聚类算法

12.48 混合型数据聚类算法 混合型数据在本文是指分类型数据和数值型数据并存的一类数据,由于两类数据描述的差异性,使得混合型数据聚类算法中类个数的确定变得越来越困难.针对分类型数据,Chen et al [36] 利用熵的性质提出了一个针对分类型数据确定聚类个数的层次聚类方法.该方法根据增量熵的变化来指导凝聚层次聚类过程,根据每层对应划分的期望熵的二次导数随类个数的变化曲线来估计候选的最佳聚类个数.Yan et al [37] 提出了一个专门针对事务数据的聚类个数确定方法.该方法给出了基于事务

《中国人工智能学会通讯》——12.26 基于众包的数据提纯

12.26 基于众包的数据提纯 随着基于位置服务的蓬勃发展 , 随之出现了大量相关的空间文本数据.空间文本数据包括两方面信息,一个空间位置信息 , 通常与一个空间兴趣点相关,由一个经纬度坐标点表示数据所处的地理位置:一个文本信息,通常是由一组关键词构成的类似标签的文本描述.目前,这些关键词标签的生成方式主要通过人工添加与机器算法自动生成,由于来源广泛,这些生成的关键词质量参差不齐,很多质量难以保证.这些错误的数据在实际应用中将带给用户非常糟糕的体验,甚至误导用户,造成损失.比如当前很多基于位置的

《中国人工智能学会通讯》——12.59 基于模糊性的半监督学习

12.59 基于模糊性的半监督学习 假设 A 是一个大数据集,并且 A 中的大部分样例没有类标:B 是 A 中一小部分样例组成的集合,并且 B 中的每个样例都有类标.利用数据集 B 我们可以训练得到分类器,但我们不能保证这样的分类器对 A-B 中的样例有较好的预测结果.基于对数据集 A-B 中的每个样例的预测结果,我们想从 A-B 中挑选出一些样例(连同对这些样例的预测结果)加入到数据集 B 中.再次利用 B 进行训练得到的分类器对于 A-B 中样例的预测精度将会有所提升.此刻需要明确的关键问题

《中国人工智能学会通讯》——12.50 知识图谱研究综述

12.50 知识图谱研究综述 知识图谱(Knowledge Graph, KG)旨在描述客观世界的概念.实体.事件及其之间的关系.其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人.动物.组织机构等:实体是客观世界中具体事物,如篮球运动员姚明.互联网公司腾讯等:事件是客观世界的活动,如地震.买卖行为等.关系描述概念.实体.事件之间客观存在的关联关系,如毕业院校描述了一个人与他学习所在学校之间的关系,运动员和篮球运动员之间的关系是概念和子概念之间的关系等.谷歌于 2012 年 5月

《中国人工智能学会通讯》——12.10 接触追踪 : 传染病防控的 AI 方法

12.10 接触追踪 : 传染病防控的 AI 方法 传染病的每次爆发都会给人类社会带来巨大损失.1918 年的西班牙大流感导致 2 000 多万人死亡.截止到 2013 年,全球约有 33 亿人感染过疟疾,每60 秒就有一人死于疟疾.肺结核致死率已经超过艾滋病,成为世界上最致命的传染病,南非约有 80%的人口患有潜伏性肺结核,仅在 2013 年就有 45 万例肺结核阳性患者.传染病在威胁人类生命的同时也带来了巨大经济损失.据统计,疟疾每年给非洲各国造成的经济损失多达 120 亿美元,季节性流感每

《中国人工智能学会通讯》——12.38 知识库与 HTML 表格的融合

12.38 知识库与 HTML 表格的融合 近年来,HMTL 表格(Web Table)作为万维网上重要的结构化数据,受到了广泛关注.HTML 表格有两个优点,其一是数量巨大,根据微软在 2012年的统计,万维网上存在着近6亿的HTML表格[33] :其二结构良好,如图 4 所示,左侧和右下的 HTML表格以良好的结构提供了公司的信息.因此,本文提出将HTML表格的数据抽取出来,链接到知识库中,以实现知识库补全.图 4 给出了这一想法的示意,将 HTML 表格中的公司实体与属性映射到知识库的公司

《中国人工智能学会通讯》——12.55 结束语

12.55 结束语 知识图谱技术是人工智能知识表示和知识库在互联网环境下的大规模应用,显示出知识在智能系统中重要性,是实现智能系统的基础知识资源.纵观知识图谱研究发展的相关研究现状,以下研究将成为未来知识图谱必须应对的挑战:① 研究知识表示和获取的新理论和方法,使知识既具有显式的语义定义,又便于大数据下的知识计算:② 随着信息技术从信息服务向知识服务的转变,研究建立知识图谱构建的平台,以服务不同的行业和应用:③ 知识图谱虽然已经在语义搜索和知识问答等应用中展示出一定的威力,但是基于知识图谱的应用