第3期Talk实录 | 数据驱动的大规模分类体系构建

Q & A

对于关系传递性的正确性判断这篇论文，文章是建立在构建标注数据和特征上来做的，想请问下有没有一个宏观的解释，在什么情况下传递性成立以及什么时候不成立呢？换句话说，不成立主要是因为什么引起的呢？

梁家卿

因为我们使用的是一个黑核，就是机器学习模型，所以我们很难知道它具体是由于什么原因引起的。我猜想的话，主要是因为中间词 B 意思的偏移，但是这个偏移我们很难严格的定义。总来说很难知道具体原因是什么，因为机器模型实在是不可解释。

对于 recall 的评估，文章的模型发现的错误 isA 关系都包含在 baseline 发现的错误关系里面么，我觉得分母应该是所有模型发现的错误 isA 关系的并集才对？

梁家卿

这里我没有细讲，我们的 baseline 模型其实是用拓扑排序去找到一个差不多的拓扑序，去找到所有逆向边作为错误，所以会找到非常多。那事实上我们很难去计算 recall ，因为我们不知道错误总数。所以我们 paper 中写的是用一个相对的 call 去计算所有的逆向边，但我觉得你说得更好，确实是用所有错误的并集会更好一点。

请问一下，本文检测 wrong isA relation 是建立在错误的 isA 关系出现在环里面，但是假如正确的关系没有抽取出来，比如 Paris isA exciting_city 时，或者对于没出现在环里面的错误的 isA 关系，有没有比较好的检测方法？

梁家卿

我们现在的方法只能通过环来找，那其它当法的话可能其它类型的错误可能找不到。如果有其它方法可找到其它非环的错误的话，可另外做一篇 paper。

论文中 Figure3 的那条曲线，纵坐标是 error@k，按我的理解应该是递增的，为什么还有波动的这种情况？

梁家卿

比如说排完序之后，第一个是错的，二三都是对的。那么 error2 就是 1/2，error3 就是 1/3，1/3 显然小于 1/2。

来源：paperweekly

原文链接

时间： 2024-11-08 21:56:58

第3期Talk实录 | 数据驱动的大规模分类体系构建

第3期Talk实录 | 数据驱动的大规模分类体系构建的相关文章

第1期Talk实录 | CN-DBpedia构建技术和思路

韩游迎来3月“更新期”多款网游大规模更新

第4期Talk实录 | 基于知识库的问答

第2期Talk实录 | 词向量的几何分布及其应用

No.53期分享实录：应用场景驱动容器方案选择设计

《原来如此》第四十七期：混合云从业务需求出发构建统一管理平台

全国社会媒体处理大会即将召开，一文详解四天议程精华

DT科技评论第17期：下一代计算机架构登场！

易观副总经理吴文钊：中国3G启动期或为3年