第3期Talk实录 | 数据驱动的大规模分类体系构建

Q & A

Q

对于关系传递性的正确性判断这篇论文,文章是建立在构建标注数据和特征上来做的,想请问下有没有一个宏观的解释,在什么情况下传递性成立以及什么时候不成立呢?换句话说,不成立主要是因为什么引起的呢?


梁家卿

因为我们使用的是一个黑核,就是机器学习模型,所以我们很难知道它具体是由于什么原因引起的。我猜想的话,主要是因为中间词 B 意思的偏移,但是这个偏移我们很难严格的定义。总来说很难知道具体原因是什么,因为机器模型实在是不可解释。

Q

对于 recall 的评估,文章的模型发现的错误 isA 关系都包含在 baseline 发现的错误关系里面么,我觉得分母应该是所有模型发现的错误 isA 关系的并集才对?


梁家卿

这里我没有细讲,我们的 baseline 模型其实是用拓扑排序去找到一个差不多的拓扑序,去找到所有逆向边作为错误,所以会找到非常多。那事实上我们很难去计算 recall ,因为我们不知道错误总数。所以我们 paper 中写的是用一个相对的 call 去计算所有的逆向边,但我觉得你说得更好,确实是用所有错误的并集会更好一点。

Q

请问一下,本文检测 wrong isA relation 是建立在错误的 isA 关系出现在环里面,但是假如正确的关系没有抽取出来,比如 Paris isA exciting_city 时,或者对于没出现在环里面的错误的 isA 关系,有没有比较好的检测方法?


梁家卿

我们现在的方法只能通过环来找,那其它当法的话可能其它类型的错误可能找不到。如果有其它方法可找到其它非环的错误的话,可另外做一篇 paper。

Q

论文中 Figure3 的那条曲线,纵坐标是 error@k,按我的理解应该是递增的,为什么还有波动的这种情况?


梁家卿

比如说排完序之后,第一个是错的,二三都是对的。那么 error2 就是 1/2,error3 就是 1/3,1/3 显然小于 1/2。

来源:paperweekly

原文链接

时间: 2024-11-08 21:56:58

第3期Talk实录 | 数据驱动的大规模分类体系构建的相关文章

第1期Talk实录 | CN-DBpedia构建技术和思路

[ Q & A ] 在QA环节中,谢博士请来了知识工场指导老师,复旦大学肖仰华教授,为大家深入解答所有问题.肖老师简介参看http://gdm.fudan.edu.cn/GDMWiki/Wiki.jsp?page=Yanghuaxiao. - 01 - Q: 请问中文的特定领域nlp模型训练怎么解决标注集不足? A: Good question. 领域样本总是稀疏,可以考虑迁移学习,特别是基于深度学习的迁移学习,目前这个领域的研究刚刚开始,可以参考:http://gdm.fudan.edu.cn

韩游迎来3月“更新期”多款网游大规模更新

(编译/小熙)据韩国媒体报道,2011年年初,随着NHN大作<TERA>的公测,很多有潜力的网游都纷纷投入公测,一月那段"激情燃烧"的岁月至今不能让人忘怀.不过随着新作市场反应极好,很多就作网游们均不敢出手进行版本更新,导致整个2月韩国市场一片暗淡. 在业界和市场对于新作的"热情"."肯定"或"批判"结束后,本月起,很多人气网游开始进行大规模更新,以吸引更多的玩家.多款游戏之间的竞争.新玩家的涌入.推销手段的不断翻

第4期Talk实录 | 基于知识库的问答

Q & A Q 请问崔博士,在 EntityLink 部分可以推荐一些比较好的 link 工具吗? 崔万云 应该还没有特别好的,我们在自己实现.不过有大量的相关文献.英文也有现成的应该.中文的必须自己实现.可以搜一下 gerhard weikum 在 sigmod 的一个教程,里面有提到. Q 请问一下,在基于多粒度的神经网络模型中,没一种特征采用了不同粒度的表示,请问在用不同粒度表示的向量在 merge 的时候是直接 concatenate 还是加权求和,或者其他?如果是加权的话,对于不同的粒

第2期Talk实录 | 词向量的几何分布及其应用

[ Q & A ] 本次 Talk 中涉及的三篇 paper 如下: https://arxiv.org/abs/1702.01417 https://arxiv.org/abs/1611.09799  https://arxiv.org/abs/1610.07569 请问穆博士,您能详细的讲一下 subspace representation 的方法吗? 穆佳琦:感谢提问!首先将所有词的 vector 堆叠成一个矩阵,提取这个矩阵的若干个(3-5)主成分,然后这几个主成分对应的 vector

No.53期分享实录:应用场景驱动容器方案选择设计

今天的线上分享,我们来说说容器和应用这亲密的哥俩. 你对应用系统好,那么应用系统就对你好. 你对应用系统说,hi,上container吧! 一切问题都解决,那么就等着应用系统忽悠你. 应该说container比起VM更贴近应用,可以理解为应用的"虚拟机",对应着VM是OS的虚拟机. 我们上container的目的是为了应用,因此问题的本源是应用而非container,一个应用系统本身设计的好坏决定了最终应用的效果, 因此说设计好应用,才能用container的手段更好地支撑它. 从应用

《原来如此》第四十七期:混合云从业务需求出发 构建统一管理平台

:云计算是现在企业真真切切开始做的事情,大中型企业更多构建私有云,小微企业更多采用公有云,当然混合云的趋势也越来越明显,但在这个过程混合云也给企业带来了多种问题,像两朵云不能互通,或不能形成统一管理平台等.ZDNet至顶网也请到中桥国际总经理兼高级分析师王丛来解析,中国云市场的发展走势,以及如何从业务需求出发混合云,构建统一的云管理平台. 以下为采访实录: 主持人:各位网友大家好,欢迎收看ZDNet至顶网视频节目,今天我们很高兴请来了中侨国际的总经理兼高级分析师王丛,请跟我们网友打个招呼. 嘉宾

全国社会媒体处理大会即将召开,一文详解四天议程精华

全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验. 据雷锋网了解,第六届全国社会媒体处理大会(SMP 2017)由中国科学院计算技术研究所承办,将于2017年9月14-17日(也即这周四到下周一)在北京友谊宾馆召开.四天的会议都有哪些内容呢

DT科技评论第17期:下一代计算机架构登场!

DT科技评论 Data Technology Review 第 17 期           人民网研究院,阿里云研究中心 本期目录 AWS re:Invent2016大会召开 下一代计算机架构登场! 焦灼的云战争:阿里和亚马逊如何赢? 微软Azure出现致命漏洞 谷歌用海风给数据中心供能散热 谷歌新目标--让计算机实现自我编程 IBM识别癌变细胞技术取得重大突破 英特尔成立自动驾驶事业部 智能识别进入金融领域应用阶段 亚马逊用机器人备战销售旺季 人工智能提示:本周热点科技事件,是阿里云"ET&

易观副总经理吴文钊:中国3G启动期或为3年

孙燕飚 "如果一张3G网的用户规模,不达到8000万~1亿客户群的话,就很难形成商业价值."易观国际副总经理.电信专家吴文钊6月5日在"2009第一财经中国3G终端论坛"上表示,如果中国3G用户还没有达到2.5亿,就意味着中国3G市场的启动期还没有结果. 吴文钊指出,当年VCD市场孕育了15年,才造成了VCD的爆发,数码相继也孕育了10年.但中国三大运营商的资金实力实在是太雄厚了,所以中国3G市场的启动期可能为3年. 去年10月份开始,中国电信打响的第一枪,接着是中