12.38 知识库与 HTML 表格的融合
近年来,HMTL 表格(Web Table)作为万维网上重要的结构化数据,受到了广泛关注。HTML 表格有两个优点,其一是数量巨大,根据微软在 2012年的统计,万维网上存在着近6亿的HTML表格[33] ;其二结构良好,如图 4 所示,左侧和右下的 HTML表格以良好的结构提供了公司的信息。
因此,本文提出将HTML表格的数据抽取出来,链接到知识库中,以实现知识库补全。图 4 给出了这一想法的示意,将 HTML 表格中的公司实体与属性映射到知识库的公司(company)类型,从而扩充知识库的公司实体及相关关系。
实现这一目的的第一步是类型匹配,即给定HTML 表格的一列,确定其对应的知识库中的概念。这一工作可以通过众包链接任务完成,如图 5 所示,
给出以 Title 为表头的一列,让众包判断它的类型是电影名称、图书标题,或是其他。类型匹配是后续实体链接、类型链接的重要基础。下面以此为例说明众包机器协同工作的机制(见 4.2 节)。
时间: 2024-09-11 23:18:19