7.24 现今知识图谱应用的挑战和展望
知识图谱本身仍是一个快速发展的领域。它在搜索引擎中的应用更是刚刚起步。这里,笔者根据自身在这个方向研究过程中的经验和体会,总结出两个目前最直接对知识图谱在搜索引擎中使用的挑战,以及对这个方向将来发展的展望。
知识图谱和自然语言的对接
目前几乎所有相关工作都需要首先将知识图谱和文本数据对接起来。本文介绍了三种目前有效的主流方法,即查询词条实体标注、实体搜索和文档实体标注。但是这三种技术本身都是正在发展的技术,各自的精确度并非可以完全被依赖。
目前文档的实体标注在网页上大约只能达到0.6 左右的精确度和召回率。而查询词条更短、更有歧义性。之上的实体标注效果要进一步打折扣。可能平均下来每两个实体标注里就有一个是噪声。实体搜索更是刚刚起步,精确度(P@10)远低于0.5。这些噪声给后续的应用带来了很大的不确定性。而如何能够根据搜索引擎的需求开发更适合、精确度更高的实体标注和实体搜索技术,同时也设计出能够更健壮、更不受噪声干扰的基于知识图谱的搜索算法,是在搜索引擎中利用知识图谱的一个很重要的亟待解决的问题。
关系信息的使用
目前搜索排序中对知识图谱的使用大都侧重在知识图谱中的文本信息。而实际知识图谱中更丰富、更语义的是实体之间的关系信息。如何能够在搜索中更好利用实体之间的关系,提升搜索引擎对查询词和文档的理解,更好地对搜索相关性进行建模,是在搜索引擎中更进一步利用知识图谱的一个重要步骤。
展 望
总的来说,随着近年来知识图谱相关技术的发展,以及学术界、工业界对其在搜索引擎中应用的努力探索,目前已确信知识图谱在搜索引擎的可用性和潜力。随着人们对这个方向的持续投入,我们相信今后会出现更多基于知识图谱的搜索模型。最终帮助搜索引擎从更深层的语义上理解文本,更智能地给用户提供搜索结果,让人类的信息获取变得更加简单。