7.22 知识图谱应用的基本技术
要想在文本应用中使用知识图谱,必不可少的先决步骤是将知识图谱和文本对应起来。常用方法有实体标注(Entity Linking)和实体搜索(EntitySearch)两种。
实体标注
实体标注的任务是自动标识出文本里出现的实体。比如在“卡耐基梅隆大学是位于宾州匹兹堡的一所私立研究性大学”这句话里,实体标注系统会识别出它提到了“卡耐基梅隆”、“宾夕法尼亚”、“匹兹堡”和“研究性大学”这些实体,然后把它们链接到知识图谱的结点上。
一般来说现在的实体标注可以分为两步。
实体识别:识别出文本中可能提到实体的短语,然后找出知识图谱中可能被提到的实体们,作为候选集。
消歧:对每个第一步识别出的短语,从它的候选实体集合中选择出其中最可能的实体进行标注。
第一步一般是靠文本和实体名字的精确匹配。主要的难点在于搜集更全和更准确的实体名字列表。第二步是当前实体标注的研究的重点,常见的方法是整体考虑文本中所有的候选实体,从中利用图模型等,选择最可能的实体进行链接。比较经常使用的信号包括实体的重要性、实体和文本的相似度,以及实体们相互的相似度等[3-4] 。
实体搜索
给 定 一 个 查 询 词 条, 实 体 搜 索(EntitySearch)直接从知识图谱中搜索相关的实体们。实体搜索目前还是一个相对新的研究领域。现今的做法主要先把实体的相关信息转化为文档,然后再使用传统的文本搜索方法。从实体到文档的转化一般通过一些人工规则,把各种文本属性,例如名字、文本描述、类别,以及相关实体的名字等放到文档中,再运用经典的文本搜索方法,比如说 Learningto Rank [5] 进行实体搜索。
时间: 2024-09-30 03:17:00