《 短文本数据理解》——第1章 短文本理解及其应用 1.1 短文本理解

1.1短文本理解

短文本广泛地存在于互联网的各个角落,如搜索查询、广告关键字、锚文本、标签、网页标题、在线问题、微博等,都属于短文本。一般而言,短文本字数少,没有足够的信息量来进行统计推断,因此机器很难在有限的语境中进行准确的语义理解。此外,由于短文本常常不遵循语法,自然语言处理技术如词性标注和句法解析等,难以直接应用于短文本分析。正是由于这些特性,使得让机器正确理解短文本十分困难。然而,短文本理解又是一项对于机器最终实现人工智能至关重要的任务,其在知识挖掘领域有很多潜在应用,如网页搜索、在线广告、智能问答等。那么,如何才能够破解其中的挑战呢?
我们不妨首先跳出机器的范畴,看看人类是如何理解短文本的。对于人类而言,理解这些短文本是十分简单的。即使是一个10岁左右的儿童,当他们看到短文本(如搜索查询)时,都可以正确地理解这些短文本的含义。究其原因,是由于人类具有“思维”,能够积累知识并做出推断。例如,给出两个查询语句“band for wedding”和“wedding band”,人类可以清楚地判断前者指的是一项“婚礼乐队服务”,而后者是“结婚戒指”。而这种知识的积累,是人们通过不断学习而获得的。
为了使机器也具有类似的能力,先前的研究往往也会构造出一些知识库系统,如Freebase、Yago等为机器“装备”知识。这些知识库大多包含大量实体以及与之相关的事实。以搜索引擎或问答系统为例,基于这些事实,机器可以通过查询的方式获取输入问题的答案。然而,如图11所示,在机器回答问题前,首先需要解决的是“理解”问题,这也是这一过程中的最大挑战。

通过深入研究,我们发现理解短文本所需要的知识与回答短文本所需要的知识并不相同。例如,针对短文本“世界上第三大瀑布”,10岁的儿童可以正确理解其含义,但是却不一定能够正确回答这个问题。这是因为,理解短文本更需要的是常识性知识(注重广度),而回答短文本更需要的是专业性知识(注重深度)。因此,传统的知识库系统并不能很好地解决短文本理解问题。
为了克服机器理解短文本的障碍,先前基于短文本的应用常通过枚举和关键词匹配的方式避免“理解”这一任务。以自动问答系统为例,可事先构建关于问题和答案匹配的列表,这样在线查询时只需对列表中的条目进行匹配即可。近年来随着自然语言处理技术的发展,主流的搜索引擎正逐渐从基于关键词的搜索向文本理解过渡。例如,给出“apple ipad”这个短文本,机器需要明白“apple”所指为品牌名而不是水果。
为了实现自动化的短文本理解,许多相关工作[54,153,172]证明,这一过程相当依赖额外的知识。这些知识可以帮助机器充分挖掘短文本中词与词之间的联系,如语义相关性。例如,在英文查询“premiere Lincoln”中,“premiere”是一个重要的信息,表明“Lincoln”在这里指的是movie(电影);同样,在“watch harry potter”中,正因为“watch” (观看)的出现,“harry potter”的含义可被判定为movie(电影)或DVD,而不是book(图书)。但是,这些关于词汇的知识(例如“watch”的对象通常是movie)并没有在短文本中明确表示出来,因而需要通过额外的知识源获取。图12展示了所有短文本理解方法在知识源属性和粒度的二维坐标轴中对应的位置。这些方法将在下一节逐一讨论。

时间: 2024-09-30 22:45:24

《 短文本数据理解》——第1章 短文本理解及其应用 1.1 短文本理解的相关文章

《 短文本数据理解》——导读

|前 言 当今世界,每天都有数十亿的短文本产生,比如搜索查询.广告关键字.标签.微博.问答.聊天记录等.与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则:其次,短文本由于字数少,本身所包含的信息也较少.前者使得传统的自然语言处理方法不能直接适用于短文本,而后者则意味着短文本理解不得不依赖于外部信息.简而言之,短文本具有较稀疏.噪声大.歧义多的特点,因而机器理解短文本面临极大的挑战. 而另一方面,随着近些年人工智能技术的重大突破,尤其是大规模知识图谱以及深度学习技术的出现

《短文本数据理解(1)》一1.2 短文本理解研究现状

1.2 短文本理解研究现状 1.2.1 短文本理解模型概述 本节根据短文本理解所需知识源的属性,将短文本理解模型分为三类:隐性(implicit)语义模型.半显性(semiexplicit)语义模型和显性(explicit)语义模型.其中,隐性和半显性模型试图从大量文本数据中挖掘出词与词之间的联系,从而应用于短文本理解.相比之下,显性模型使用人工构建的大规模知识库和词典辅助短文本理解. 1隐性语义模型 隐性语义模型产生的短文本表示通常为映射在一个语义空间上的隐性向量.这个向量的每个维度所代表

《 短文本数据理解》——1.2短文本理解研究现状

1.2短文本理解研究现状 1.2.1短文本理解模型概述 本节根据短文本理解所需知识源的属性,将短文本理解模型分为三类:隐性(implicit)语义模型.半显性(semiexplicit)语义模型和显性(explicit)语义模型.其中,隐性和半显性模型试图从大量文本数据中挖掘出词与词之间的联系,从而应用于短文本理解.相比之下,显性模型使用人工构建的大规模知识库和词典辅助短文本理解. 1隐性语义模型 隐性语义模型产生的短文本表示通常为映射在一个语义空间上的隐性向量.这个向量的每个维度所代表的含

《短文本数据理解(1)》一第1章 短文本理解及其应用1.1 短文本理解

第1章 短文本理解及其应用 1.1 短文本理解 短文本广泛地存在于互联网的各个角落,如搜索查询.广告关键字.锚文本.标签.网页标题.在线问题.微博等,都属于短文本.一般而言,短文本字数少,没有足够的信息量来进行统计推断,因此机器很难在有限的语境中进行准确的语义理解.此外,由于短文本常常不遵循语法,自然语言处理技术如词性标注和句法解析等,难以直接应用于短文本分析.正是由于这些特性,使得让机器正确理解短文本十分困难.然而,短文本理解又是一项对于机器最终实现人工智能至关重要的任务,其在知识挖掘领域有很

《 短文本数据理解》——第2章 基于概率的属性提取与推导2.1引言

|第2章 基于概率的属性提取与推导 知识库包含概念.实体.属性和关系,它在许多应用中的作用日渐突出.本章强调(概念和实体的)属性知识对推测的重要性,并提出一种为百万级的概念推导出属性的方法.该方法将属性和概念的关系量化为典型性(typicality),使用多个数据源来聚合计算这些典型度得分,这些数据源包括网页文本.搜索记录和现有的知识库.该方法创新性地将基于概念和实体的模式融合计算典型度得分,大量的实验证明了该方法的可行性. 2.1引言 创建概念.实体和属性的知识库的目的在于赋予机器像人类一样的

《短文本数据理解(1)》一第2章 基于概率的属性提取与推导2.1 引言

第2章 基于概率的属性提取与推导 知识库包含概念.实体.属性和关系,它在许多应用中的作用日渐突出.本章强调(概念和实体的)属性知识对推测的重要性,并提出一种为百万级的概念推导出属性的方法.该方法将属性和概念的关系量化为典型性(typicality),使用多个数据源来聚合计算这些典型度得分,这些数据源包括网页文本.搜索记录和现有的知识库.该方法创新性地将基于概念和实体的模式融合计算典型度得分,大量的实验证明了该方法的可行性. 2.1 引言 创建概念.实体和属性的知识库的目的在于赋予机器像人类一样的

《短文本数据理解(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都

《短文本数据理解(1)》一2.2 属性提取

2.2 属性提取 本节介绍基于知识的属性提取的方法,该方法可从多数据源提取(概念,属性)对.为(概念,属性)对打分的方法将在23节给出. 2.2.1 属性提取的整体框架 如图22所示,本章的属性提取方法基于概率数据库Probase,并从三种数据源获取数据.222节将介绍Probase的具体信息,该方法侧重的数据类型为网站数据.搜索数据和各种结构数据,表22总结了这些数据类型.网站数据包括240TB的网页文本,搜索数据包含6个月内搜索频率大于2的搜索查询语句,结构数据为DBpedia[1

《 短文本数据理解》——2.2属性提取

2.2属性提取 本节介绍基于知识的属性提取的方法,该方法可从多数据源提取(概念,属性)对.为(概念,属性)对打分的方法将在23节给出. 2.2.1属性提取的整体框架 如图2.2所示,本章的属性提取方法基于概率数据库Probase,并从三种数据源获取数据.2.2.2节将介绍Probase的具体信息,该方法侧重的数据类型为网站数据.搜索数据和各种结构数据,表2.2总结了这些数据类型.网站数据包括240TB的网页文本,搜索数据包含6个月内搜索频率大于2的搜索查询语句,结构数据为DBpedia[1]中