《 短文本数据理解》——1.3短文本理解框架

1.3短文本理解框架

针对上述研究问题与研究现状,本书将围绕短文本理解的各项需求及挑战,重点介绍显性模型中基于概念化模型进行短文本理解中的关键性技术,如图1.6所示。

在语义网络层,主要是构建理解短文本所需要的额外知识源,即知识库系统或者语义网络。知识库包含概念、实体、属性和关系,当关系足够丰富时,便构成了语义网络,它在许多应用中的作用日渐突出。其中,知识库中的概念和实体关系已经有较为充分的研究,因此本书主要介绍基于概率的属性提取与推导,从而完善整个语义网络,以支持其上的模型构建。

在概念化层,本书首先介绍利用语义网络构建单实体概念化模型。提出一种基于典型性和点互信息(PMI)的基本层次概念化(Basiclevel Conceptualization,BLC)方法,将单实体映射到一组最能刻画这个实体各种特征的概念上,并附着于概率值,以支持短文本概念化。基于概念化的短文本理解的目标是把短文本(如搜索引擎中的查询关键字)所包含的实体映射到语义网络中的概念上。其中需要解决的核心问题是利用短文本中有限的上下文对词义进行消歧。利用动词、形容词、实体及其属性,首先从大量的网络语料中挖掘出它们的各种关系。再利用这些挖掘得到的知识,提出一个整体概念化模型,使用基于随机游走的迭代算法将查询中的词语概念化。

利用上述两个针对单实体以及短文本的模型,可以进一步解决基于概念化的短文本主题词与修饰词检测。在短文本理解中,主题词与修饰词的检测是一个非常重要的问题。然而在许多情况下,短文本(如搜索引擎中的查询关键字等)并不遵守语法规则。现有方法通常基于粗粒度、领域相关,以及需要大量训练数据。本书将介绍一种基于语义的短文本主题词与修饰词检测方法。此方法首先从搜索日志中获取大量实体级别的“主题词修饰词”对,然后通过概念化模型将这些实体对归纳至概念级别,最后通过这些精细且精确的带权重的概念模式来进行主题词与修饰词的检测。

此外,单实体概念化模型也能够帮助解决基于概念化的词相似度计算。计算两个词之间的相似度对很多文本分析理解相关的应用至关重要。目前,这一任务主要有两种解决方法:基于知识的方法和基于文集的方法。然而,这些方法主要应用在单词之间的语义相似度计算,无法扩展到多个单词组成的多词表达式或文本。针对此问题,本书将介绍一种基于语义网络的词相似度计算方法。该语义网络基于十亿级的网页文本创建,包含百万级的概念。本书首先阐述如何将两个词映射到概念空间,进而介绍一种概念聚类的方法以提高相似度度量的准确性。

在应用层,利用概念化层所构建的各个模型,可以有效应用在不同的任务中,如广告关键字匹配、搜索排序、查询推荐、短文本聚类、智能问答系统、Web表格理解等。本书选取搜索广告应用场景,展示了一种基于概念化的海量竞价关键字匹配技术。搜索广告是搜索引擎的主要收入来源。广告商以关键字对他们的广告竞价,而搜索引擎在竞价关键字基础上通过匹配用户查询进行相关广告推送。由于查询和竞价关键字都是短文本并且不能由标准的词袋(bag-of-words)方法建模,大部分现有方法是利用用户行为数据(例如点击数据、会话数据等)去填补在匹配竞价关键字与用户查询上的语义差距。然而这种方法却不能处理没有很多用户行为数据的长尾查询。尽管它特殊罕见,长尾查询整体上却占据相当大的查询量,并且是搜索引擎收入的一个重要来源。本书将介绍一种匹配查询和竞价关键字的新方法。利用概率分类和大型同现网络,把短文本概念化成一组相关概念。为了处理大量查询和海量关键字,创建概念的语义索引:通过测量它们在概率空间的相似度,对于给定的查询选择相关的竞价关键字。

时间: 2024-11-01 14:01:56

《 短文本数据理解》——1.3短文本理解框架的相关文章

《短文本数据理解(1)》一1.2 短文本理解研究现状

1.2 短文本理解研究现状 1.2.1 短文本理解模型概述 本节根据短文本理解所需知识源的属性,将短文本理解模型分为三类:隐性(implicit)语义模型.半显性(semiexplicit)语义模型和显性(explicit)语义模型.其中,隐性和半显性模型试图从大量文本数据中挖掘出词与词之间的联系,从而应用于短文本理解.相比之下,显性模型使用人工构建的大规模知识库和词典辅助短文本理解. 1隐性语义模型 隐性语义模型产生的短文本表示通常为映射在一个语义空间上的隐性向量.这个向量的每个维度所代表

《 短文本数据理解》——1.2短文本理解研究现状

1.2短文本理解研究现状 1.2.1短文本理解模型概述 本节根据短文本理解所需知识源的属性,将短文本理解模型分为三类:隐性(implicit)语义模型.半显性(semiexplicit)语义模型和显性(explicit)语义模型.其中,隐性和半显性模型试图从大量文本数据中挖掘出词与词之间的联系,从而应用于短文本理解.相比之下,显性模型使用人工构建的大规模知识库和词典辅助短文本理解. 1隐性语义模型 隐性语义模型产生的短文本表示通常为映射在一个语义空间上的隐性向量.这个向量的每个维度所代表的含

《短文本数据理解(1)》一1.3 短文本理解框架

1.3 短文本理解框架 针对上述研究问题与研究现状,本书将围绕短文本理解的各项需求及挑战,重点介绍显性模型中基于概念化模型进行短文本理解中的关键性技术,如图16所示. 在语义网络层,主要是构建理解短文本所需要的额外知识源,即知识库系统或者语义网络.知识库包含概念.实体.属性和关系,当关系足够丰富时,便构成了语义网络,它在许多应用中的作用日渐突出.其中,知识库中的概念和实体关系已经有较为充分的研究,因此本书主要介绍基于概率的属性提取与推导,从而完善整个语义网络,以支持其上的模型构建. 在概念化层

《 短文本数据理解》——第1章 短文本理解及其应用 1.1 短文本理解

1.1短文本理解 短文本广泛地存在于互联网的各个角落,如搜索查询.广告关键字.锚文本.标签.网页标题.在线问题.微博等,都属于短文本.一般而言,短文本字数少,没有足够的信息量来进行统计推断,因此机器很难在有限的语境中进行准确的语义理解.此外,由于短文本常常不遵循语法,自然语言处理技术如词性标注和句法解析等,难以直接应用于短文本分析.正是由于这些特性,使得让机器正确理解短文本十分困难.然而,短文本理解又是一项对于机器最终实现人工智能至关重要的任务,其在知识挖掘领域有很多潜在应用,如网页搜索.在线广

《短文本数据理解(1)》一第1章 短文本理解及其应用1.1 短文本理解

第1章 短文本理解及其应用 1.1 短文本理解 短文本广泛地存在于互联网的各个角落,如搜索查询.广告关键字.锚文本.标签.网页标题.在线问题.微博等,都属于短文本.一般而言,短文本字数少,没有足够的信息量来进行统计推断,因此机器很难在有限的语境中进行准确的语义理解.此外,由于短文本常常不遵循语法,自然语言处理技术如词性标注和句法解析等,难以直接应用于短文本分析.正是由于这些特性,使得让机器正确理解短文本十分困难.然而,短文本理解又是一项对于机器最终实现人工智能至关重要的任务,其在知识挖掘领域有很

《 短文本数据理解》——导读

|前 言 当今世界,每天都有数十亿的短文本产生,比如搜索查询.广告关键字.标签.微博.问答.聊天记录等.与长文本(如文档)不同,短文本具有如下特性:首先,短文本通常不遵守语法规则:其次,短文本由于字数少,本身所包含的信息也较少.前者使得传统的自然语言处理方法不能直接适用于短文本,而后者则意味着短文本理解不得不依赖于外部信息.简而言之,短文本具有较稀疏.噪声大.歧义多的特点,因而机器理解短文本面临极大的挑战. 而另一方面,随着近些年人工智能技术的重大突破,尤其是大规模知识图谱以及深度学习技术的出现

《短文本数据理解(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都

《短文本数据理解(1)》一2.2 属性提取

2.2 属性提取 本节介绍基于知识的属性提取的方法,该方法可从多数据源提取(概念,属性)对.为(概念,属性)对打分的方法将在23节给出. 2.2.1 属性提取的整体框架 如图22所示,本章的属性提取方法基于概率数据库Probase,并从三种数据源获取数据.222节将介绍Probase的具体信息,该方法侧重的数据类型为网站数据.搜索数据和各种结构数据,表22总结了这些数据类型.网站数据包括240TB的网页文本,搜索数据包含6个月内搜索频率大于2的搜索查询语句,结构数据为DBpedia[1

《 短文本数据理解》——2.2属性提取

2.2属性提取 本节介绍基于知识的属性提取的方法,该方法可从多数据源提取(概念,属性)对.为(概念,属性)对打分的方法将在23节给出. 2.2.1属性提取的整体框架 如图2.2所示,本章的属性提取方法基于概率数据库Probase,并从三种数据源获取数据.2.2.2节将介绍Probase的具体信息,该方法侧重的数据类型为网站数据.搜索数据和各种结构数据,表2.2总结了这些数据类型.网站数据包括240TB的网页文本,搜索数据包含6个月内搜索频率大于2的搜索查询语句,结构数据为DBpedia[1]中