《短文本数据理解(1)》一2.4 相关研究

2.4 相关研究

虽然概念的属性提取被广泛研究，现有的工作没有侧重于典型度得分和概念数量的扩展性。本章方法创新性地通过对属性典型度的严谨分析和多重数据来源，为大量的概念提取属性。
许多现有工作［122，138，33］依赖于种子属性来鉴别提取模式以获得较多属性。这些工作也尝试了从网页文本［33］、搜索日志［122］，以及包括网页表格、列表和html标签在内的结构化数据［138］中获取属性。然而，它们没有将多个来源的属性提取融合。
不依赖于种子属性的提取方法［125］通常只使用IB模式，从搜索日志和网页文本提取属性。然而，依赖于单一数据源的方法在某些概念上（如wine和credit card）表现很差。
最新的一些方法［82，124］考虑了在属性提取中将多个数据源的结果合并。Pasca等［124］使用搜索日志和查询会话来提取属性。参考文献［82］则合并了多个结构化的数据源，如网页表格、列表、DBpedia和Wikipedia。然而，这些方法没有涉及计算概率得分并将多数据源的得分聚合。
一些不包含打分的属性提取方法使用了词性标注［162］，基于随机游走的标签扩散［7］，通过网页图表改进实体模式［174］。相比之下，本章的方法用轻量级的模式提取代替了词性标注，从而解决了拓展性和数据稀疏问题。本章方法的另一显著特点在于从多数据源量化属性的典型度。
基于网页表格的方法［47］量化了属性的联合概率，可以给出相关属性。而本章方法的区别在于强调了实体的歧义性，从而得到健全的属性典型度得分。另一个区别在于本章方法采用learningtorank的手段来获取得分，从而避免了对人工标注的依赖。
非常依赖网页表格的方法［47，82］可提取带有数值的属性。然而大多属性不会被以数值描述，如history of country。因此，这些方法不适用于提取大范围的典型属性。

时间： 2024-08-28 10:42:32

《短文本数据理解(1)》一2.4 相关研究

2.4 相关研究

《短文本数据理解(1)》一2.4 相关研究的相关文章

《短文本数据理解》——导读

《短文本数据理解(1)》一导读

《短文本数据理解(1)》一1.3 短文本理解框架

《短文本数据理解》——1.3短文本理解框架

《短文本数据理解(1)》一1.2 短文本理解研究现状

《短文本数据理解》——1.2短文本理解研究现状

《短文本数据理解》——第1章短文本理解及其应用 1.1 短文本理解

《短文本数据理解(1)》一第1章短文本理解及其应用1.1 短文本理解

《短文本数据理解(1)》一2.2 属性提取

《短文本数据理解》——2.2属性提取