《短文本数据理解(1)》一第2章 基于概率的属性提取与推导2.1 引言

第2章 基于概率的属性提取与推导

知识库包含概念、实体、属性和关系,它在许多应用中的作用日渐突出。本章强调(概念和实体的)属性知识对推测的重要性,并提出一种为百万级的概念推导出属性的方法。该方法将属性和概念的关系量化为典型性(typicality),使用多个数据源来聚合计算这些典型度得分,这些数据源包括网页文本、搜索记录和现有的知识库。该方法创新性地将基于概念和实体的模式融合计算典型度得分,大量的实验证明了该方法的可行性。

2.1 引言

创建概念、实体和属性的知识库的目的在于赋予机器像人类一样的推测能力。在推理这个任务中,输入数据往往稀疏、噪点大且包含歧义。人类能很好地理解这样的文本是因为人类具备抽象的先验知识。类似的,知识库旨在为机器提供这样的先验知识,从而使其能够调用知识来完成思考判断。可见,知识库是实现人工智能必不可少的元素。
一个知识库包含一系列的概念、实体和属性的关系。在这些关系中,如下三类尤为重要:
 isA:子概念和概念的关系(如IT company isA company)。
 isInstanceOf:实体和概念的关系(如Microsoft isInstanceOf company)。
 isPropertyOf:属性和概念的关系(如color isPropertyOf wine)。
本章强调属性和概念的关系(isPropertyOf)对基于知识的推测尤其重要。然而,为了完成推断,机器不仅仅需要了解概念的属性,还需要知道每个属性的典型性。本章将重点介绍一种自动获取属性并为其打分的方法。该方法的产出为一个大型的数据库,如表21所示,整个数据库包含百万级的概念、属性以及属性的得分。这些分数对推测尤为重要,它们被定义为如下的典型度得分。
 P(c|a)表示概念c在属性a上的典型度。
 P(a|c)表示属性a在概念c上的典型度。

如表21所示,company不是name的典型概念,因为很多别的概念都有name这个属性。相比之下,company更像是operating profit的典型概念。这些典型性被量化为表中的得分:

从另一个角度而言,当人们谈论一个company时,更倾向于被提到的是它的name,而不是operating profit,因此:

如表21所示,式(22)中两项的典型度得分差异为006,远小于式(21)中两项的典型度得分差异09,这与人类的认知一致。
至此,本章阐述了概念、属性和典型度得分对基于知识推测的重要性。直观地,给出短文本
“capital city,population”,人们会联想到country。给出“color,body,smell”,人们则会联想到wine。然而在大多数情况下,属性和概念的关联并不那么直观。以图21为例,假设在网页上看到该图,人们能否很容易地推测出这张表格的标题?

根据单一属性,如website,人类无法准确推测图表含义。然而,如图21所示,当系统看到更多属性时,它所推测到的候选概念将减少。当图表呈现出6个或7个属性时,系统能够以较高的置信度获取正确的概念。而典型度得分P(c|a)和P(a|c)在这一过程中扮演着十分重要的角色。

下面是另外一个例子。

The Coolpix P7100is announced The powerful lens with 71x zoom offers high resolution(10MP)images

假设读者不知道Coolpix P7100为一款相机,他是否能够根据语境推测到其讲述的是相机呢?也许可以。那么具有知识库的机器能否完成相同的推测呢?假设通过自然语言处理技术,lens、zoom、resolution都被标注为知识库中的属性词,且只有camera和smart phone包含这些属性。那么,机器只需了解概率P(camera|lens;zoom;resolution)大于P(smart phone|lens;zoom;resolution),便可成功完成推
测。换言之,机器需要知道camera是上述属性更加典型的概念。

通过典型度得分,机器很容易便可完成上述推测。典型度得分的目的在于为属性寻找最可能的概念。更具体地说,需要找到概念c(,使其满足

其中A=(lens,zoom,resolution),为一系列属性。P(c|A)可以用朴素贝叶斯模型得到:

至此,该问题被转化为寻找一系列的典型度得分P(c|a)。

为支持上述的机器推测问题,本章将专注于如下两个任务:获取属性和为属性打分。这些任务在概率知识库Probase[166,153]上完成。该知识库包含了大量的概念、实体和isA关系。本章的方法有如下贡献:

 该方法创新性地为属性获取典型度得分。本章将论证带有典型度得分的概念和属性对很多实际应用意义重大。在这项工作中,典型度得分被诠释为两个方面:频率(frequency)和家族相似度(family resemblance),它们将被表示为概率得分。

 该方法在获取属性的时候能够处理歧义。消歧是一项很大的挑战,且在过往的属性提取方法中很少被强调。例如,当机器试图获取wine的属性时,它会错误地将短文“the mayor of Bordeaux”中的“mayor”标注为wine的属性。事实上,Bordeaux一词包含歧义,它不仅是酒的名字,还指法国西南的一个小城市。本章的工作针对基于实体的属性提取中的歧义,改进基于概念的属性提取方法,使其不受歧义的影响。

 该方法从多个来源获取数据,并使用一种新的排序方法合并这些不同来源的数据。每个数据源和方法都有其独特特征。例如,name这个属性可能会被基于概念的属性提取方法识别,但不能通过基于实体的方法获取。biography这个属性则恰恰相反。因而,通过使用不同的方法和数据源有助于得到更加全面的属性信息,并帮助解决歧义、噪声、偏见和覆盖率的局限性。本章将对通过不同数据源提取到的属性进行比较,并提出一种新的排序算法来合并这些属性提取的结果。在这一问题上,现有的方法使用了回归[47]来聚合结果,但需要人为评估确定某些数值。而新提出的排序算法没有这一需求。

本章结构如下:22节介绍为百万级概念获取属性的方法;23节阐述为属性标记权重、聚合权重的方法;本章相关工作的讨论和结论将分别在24节和25节给出。

时间: 2024-11-24 15:53:01

《短文本数据理解(1)》一第2章 基于概率的属性提取与推导2.1 引言的相关文章

《 短文本数据理解》——第2章 基于概率的属性提取与推导2.1引言

|第2章 基于概率的属性提取与推导 知识库包含概念.实体.属性和关系,它在许多应用中的作用日渐突出.本章强调(概念和实体的)属性知识对推测的重要性,并提出一种为百万级的概念推导出属性的方法.该方法将属性和概念的关系量化为典型性(typicality),使用多个数据源来聚合计算这些典型度得分,这些数据源包括网页文本.搜索记录和现有的知识库.该方法创新性地将基于概念和实体的模式融合计算典型度得分,大量的实验证明了该方法的可行性. 2.1引言 创建概念.实体和属性的知识库的目的在于赋予机器像人类一样的

《短文本数据理解(1)》一1.3 短文本理解框架

1.3 短文本理解框架 针对上述研究问题与研究现状,本书将围绕短文本理解的各项需求及挑战,重点介绍显性模型中基于概念化模型进行短文本理解中的关键性技术,如图16所示. 在语义网络层,主要是构建理解短文本所需要的额外知识源,即知识库系统或者语义网络.知识库包含概念.实体.属性和关系,当关系足够丰富时,便构成了语义网络,它在许多应用中的作用日渐突出.其中,知识库中的概念和实体关系已经有较为充分的研究,因此本书主要介绍基于概率的属性提取与推导,从而完善整个语义网络,以支持其上的模型构建. 在概念化层

《 短文本数据理解》——1.3短文本理解框架

1.3短文本理解框架 针对上述研究问题与研究现状,本书将围绕短文本理解的各项需求及挑战,重点介绍显性模型中基于概念化模型进行短文本理解中的关键性技术,如图1.6所示. 在语义网络层,主要是构建理解短文本所需要的额外知识源,即知识库系统或者语义网络.知识库包含概念.实体.属性和关系,当关系足够丰富时,便构成了语义网络,它在许多应用中的作用日渐突出.其中,知识库中的概念和实体关系已经有较为充分的研究,因此本书主要介绍基于概率的属性提取与推导,从而完善整个语义网络,以支持其上的模型构建. 在概念化层,

《 短文本数据理解》——导读

|前 言 当今世界,每天都有数十亿的短文本产生,比如搜索查询.广告关键字.标签.微博.问答.聊天记录等.与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则:其次,短文本由于字数少,本身所包含的信息也较少.前者使得传统的自然语言处理方法不能直接适用于短文本,而后者则意味着短文本理解不得不依赖于外部信息.简而言之,短文本具有较稀疏.噪声大.歧义多的特点,因而机器理解短文本面临极大的挑战. 而另一方面,随着近些年人工智能技术的重大突破,尤其是大规模知识图谱以及深度学习技术的出现

《短文本数据理解(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都

《短文本数据理解(1)》一1.2 短文本理解研究现状

1.2 短文本理解研究现状 1.2.1 短文本理解模型概述 本节根据短文本理解所需知识源的属性,将短文本理解模型分为三类:隐性(implicit)语义模型.半显性(semiexplicit)语义模型和显性(explicit)语义模型.其中,隐性和半显性模型试图从大量文本数据中挖掘出词与词之间的联系,从而应用于短文本理解.相比之下,显性模型使用人工构建的大规模知识库和词典辅助短文本理解. 1隐性语义模型 隐性语义模型产生的短文本表示通常为映射在一个语义空间上的隐性向量.这个向量的每个维度所代表

《 短文本数据理解》——1.2短文本理解研究现状

1.2短文本理解研究现状 1.2.1短文本理解模型概述 本节根据短文本理解所需知识源的属性,将短文本理解模型分为三类:隐性(implicit)语义模型.半显性(semiexplicit)语义模型和显性(explicit)语义模型.其中,隐性和半显性模型试图从大量文本数据中挖掘出词与词之间的联系,从而应用于短文本理解.相比之下,显性模型使用人工构建的大规模知识库和词典辅助短文本理解. 1隐性语义模型 隐性语义模型产生的短文本表示通常为映射在一个语义空间上的隐性向量.这个向量的每个维度所代表的含

《短文本数据理解(1)》一2.2 属性提取

2.2 属性提取 本节介绍基于知识的属性提取的方法,该方法可从多数据源提取(概念,属性)对.为(概念,属性)对打分的方法将在23节给出. 2.2.1 属性提取的整体框架 如图22所示,本章的属性提取方法基于概率数据库Probase,并从三种数据源获取数据.222节将介绍Probase的具体信息,该方法侧重的数据类型为网站数据.搜索数据和各种结构数据,表22总结了这些数据类型.网站数据包括240TB的网页文本,搜索数据包含6个月内搜索频率大于2的搜索查询语句,结构数据为DBpedia[1

《 短文本数据理解》——2.2属性提取

2.2属性提取 本节介绍基于知识的属性提取的方法,该方法可从多数据源提取(概念,属性)对.为(概念,属性)对打分的方法将在23节给出. 2.2.1属性提取的整体框架 如图2.2所示,本章的属性提取方法基于概率数据库Probase,并从三种数据源获取数据.2.2.2节将介绍Probase的具体信息,该方法侧重的数据类型为网站数据.搜索数据和各种结构数据,表2.2总结了这些数据类型.网站数据包括240TB的网页文本,搜索数据包含6个月内搜索频率大于2的搜索查询语句,结构数据为DBpedia[1]中