第1期Talk实录 | CN-DBpedia构建技术和思路

[ Q & A ]


在QA环节中,谢博士请来了知识工场指导老师,复旦大学肖仰华教授,为大家深入解答所有问题。肖老师简介参看http://gdm.fudan.edu.cn/GDMWiki/Wiki.jsp?page=Yanghuaxiao。


— 01 —

Q: 请问中文的特定领域nlp模型训练怎么解决标注集不足?

A: Good question. 领域样本总是稀疏,可以考虑迁移学习,特别是基于深度学习的迁移学习,目前这个领域的研究刚刚开始,可以参考:http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Data%20Driven%20Approaches%20for%20Large%20Scale%20KG%20construction.pdf的最后部分。

— 02 —

Q: 请问目前工业界做命名实体识别都采用那些方法?神经网路在效率上能否达到实时性?如何做短句子的命名实体识别,比如:北京饭店识别为北京饭店,而不是北京 饭店?

A: 常规的基于分类模型的NER已经很多,短文本中的NER目前是个难题,目前准确率不高。我们最近在推实体识别服务,大家可以予以关注。短文本理解是当前的研究热点,可以参考我团队的:http://gdm.fudan.edu.cn/GDMWiki/attach/By%20Year/Syntactic%20Parsing%20of%20Web%20Queries.pdf一文。

— 03 —

Q: 你们在构建知识图谱过程中对其中的各个任务,方便介绍一下用到了哪些高效工具否?CN-DBpedia已具有一定规模,当前及未来的工作方向是什么?

A: 知识图谱构建是个系统工程,需要集成大量的文本处理、知识构建等相关模块。目前还缺乏完整的一站式平台或工具。CN-DBpedia未来的方向有几个,一是深化服务。基于KG的语言认知服务是国内外人工智能的短板,而这恰是我知识工场的强项,见PPT:http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Language%20Understanding.pdf。我将在下周二的将门直播里,讲解这方面的工作。二是横向拓展。CN-DBPeida近期将融合更多领域知识,推出重量级的中文ISA概念分类体系,并加强这些不同领域库之间的关联。真正意义上做到纵横捭阖的知识体系。三是能力平台化。KW将把我们的图谱构建能力逐步平台化、服务化,让更多的有着图谱构建需求的团队受益。

— 04 —

Q: 你们API免费开放,方便的话能否分享一下你们商业模式的构想?

A: 这也是个很好的问题。知识图谱如何变现一直是困扰很多技术团队的大问题。KW实验室摸索KG变现已有多年历史,我们业已酝酿多种变现方式,不便公开透漏,如感兴趣,可私聊。对于通用百科图谱,我们更多的是做公益,促进整个AI生态的发展。

— 05 —

Q: 再问下你们在构建知识图谱中遇到的最大困难或者问题是什么,解决方案如何(如果方便介绍的话)?对于想要或者正在构建知识图谱的人有哪些建议,以及要注意哪些坑?

A: 对于我们来讲没有技术难题:)更多的是技术之外的问题。建议是有很多的,这几年也看到了媒体宣传与炒作的很多误区,由于时间与篇幅有限,仅列几条供大家参考:1. 应用驱动。时刻想着图谱建好怎么用,不要为图谱而图谱

2. 迭代构建。不要一蹴而就,要小步快跑,每个小步,建一些图谱,训点模型,人工校验;再快速进入下一周期,往复循环,逐步优化。3. 人机协作。 当前AI水平还没到完全取代人的地步,一个实用的图谱必须要有人的参与。更多的这里就不展开了。我会在复旦大数据前沿课程里,开设知识图谱专题系列讲座,感兴趣的可以来听听。

— 06 —

Q: 企业已经有自己的信息系统,也有自己的IT,如果想构建知识图谱的话,需要多少投入(尤其是人员和技能),怎么切入进行规划?

A: Case by base. 行业智能化已经大量的在酝酿基于知识图谱的智能解决方案。我们有幸也为国内最大的IT公司提供过这类咨询与方案。不同的行业,不同的业务,不同的IT环境,有着不同的方案。目前还没成熟到off-the-shelf的地步。

— 07 —

Q: 请问CN-DBpedia如何和某个行业内部的私有数据集来结合的?

A: Good question. CN-DBpedia的一部分是通用百科。可以利用通用百科知识扩展私有数据的理解。比如一个数据项的值是傅里叶变换 ,通过查CN-DBPEdia你可以知道它是一种数值转换算法,也知道它有别称,比如傅立页变换,英文Fourier transformation. 这些背景知识可以帮你做企业智能搜索,比如你搜“傅里叶变换”,我们也可以比配Fourier,还可以基于它是数值转换算法的知识,推荐相关变换算法。这些案例已经发生,可以关注kw主页的很多系统demo,很多系统demo其实都是真实案例的演示版。再多细节就不便透露了。

— 08 —

Q: 知识图谱领域,除了歧义消解,命名实体识别,词性标注,还用到NLP的哪些技术?

A: NLP的一个子领域叫信息抽取,与知识库构建是关系最为密切的。但是务必认识到KG构建是一系统工程,而非单单NLP那么简单。这也是目前国内较为普遍的一个误区,认为图谱就是也只是NLP的菜。事实上KG涵盖NLP,机器学习、知识表示、知识推理、数据管理等众多领域,是个系统工程。

— 09 —

Q: 请问从各类文本(长文本,短文本)抽取三元组吗?文本自动摘要对于知识抽取有没有帮助或者有没有必要?

A: 摘要有很多种做法,如果是key sentences based得摘要,某种程度上对于三元组抽取是有意义的,可以用作剪枝与过滤。建议看看我实验室的knowledge-rich sentence extraction的论文,当然这个论文还在审稿中,可以私下索取。

— 10 —

Q: 想问对于非结构化的大量文本数据通过NLP抽取出结构化信息的问题。命名实体识别如何可以提高准确率,实体之间的关系怎样可以自动化有效抽取,抑或还是需要人的大量参与?大量的图谱数据如何有效存储和查询?

A: NER除非是新实体,也就是NLP领域常说的字典未收录的实体,需要NER方法外。在真正的实际的应用中查字典就是最好的NER方法。我们都已经有了这么多KG,富含这么多实体及其相关结构化信息,用他们来自NER不比基于文本的特征容易地多么? 关系的自动化抽取,参看我的PPT:http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Data%20Driven%20Approaches%20for%20Large%20Scale%20KG%20construction.pdf最后部分,如何通过基于深度学习的端到端抽取,降低人工成本。图谱的存储与查询,这里给大家几条忠告,这也是当前很多认识上的误区。不要一想到图谱,就是图数据库。本人曾在msra研发图数据库,国际最早的几篇分布式图数据库都是我们团队发表的(可以参看我们在sigmod上的tuorial:http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/adl-talk.pdf, tutorial in SIGMOD 2012)。我的建议是看图数据的使用场景,规模巨大,复杂查询,需要用图数据库。其他场合一般数据库即可。

— 11 —

Q: 自然语言生成与知识图谱的联系?

A: 有意思的问题。我们正在研究相关问题,细节不便透露。今年下半年论文出来再讨论。要指出的是,NLG可以显著受益于KG,如果你的model能够有效利用KG。事实上,如何让当前的大量的统计模型,特别是DL模型有效利用来自KG的先验知识是个重大科学问题,也是有着巨大商业价值的问题。如果感兴趣的可以来我们组访问交流。

— 12 —

Q: 请问如何在kw里面获取特定领域的知识图谱资源?

A: 我们有个算法从通用知识图谱导出领域图谱资源,一般都是线下合作。

— 13 —

Q: 请问下有没有深度学习应用于知识图谱构建的相关工作?

A: 有。我们已经投了好几篇此类论文。 部分工作在前面的几个PPT里面有提及。具体就不展开了。

— 14 —

Q: 通用接口怎么调用?

A: 见API介绍,http://kw.fudan.edu.cn/apis/intro/。

— 15 —

Q: 请问CN-DBpedia的数据是不断更新的吗?是否存在一个迭代的过程不断提升数据的质量?

A: 新版CN-DBpedia最大亮点是实时更新。川普这边刚刚就职,我们这里有关美国总统的词条就会更新。我们努力做到这点是为了让调用我们的应用不会miss掉最新知识。至于如何做到的,还是先卖个关子,不过我会在复旦的大数据课程里介绍。我们已经提交了相关论文,尽请关注吧。

— 16 —

Q: 请问CN-DBpedia上层有没提供查询接口,可否提交sparql查询来获取信息?

A: 这是来自语义网背景的人常提的问题。我们曾经真的这么做过,后来发现这是传统思维给我们的误导。不会有真实应用写那么复杂的query的。连我这个常年做图数据库的看到一个sparql还要仔细研究一番才能明白其语义,你怎能指望你的用户写出这么复杂的query。未来的query应该是自然语言。研究sparql某种程度上是“倒行逆施”。当然,如果你想发paper,还是有机会的。sparql至多作为一种中间机器语言,不适合作为终端用户,哪怕是程序员,要面对的语言。

— 17 —

Q: 请问有没有公开的数据集,作为其他研究者开发领域知识图谱的训练数据使用?

A: 应大家广泛要求,KW将提供DUMP供大家测试用。但是DUMP无法做到实时。此外,我们也在研发更精准的数据标注服务,目的就是利用知识图谱提供数据标注服务。这些都在研发阶段,如有需求可以私下联系。

— 18 —

Q: 问个数据源的问题,百科类的你们只选用了百度、互动、中文维基百科吗,有没有什么依据,像360,搜狗之类的数据内容有没有做过对比?

A: 同上。

— 19 —

Q: 现在在工作中有用到 CN-DBpedia,想知道一下通用接口在使用频次等方面有没有什么限制,谢谢。

A: 目前完全免费,且没有任何调用限制。 我们的平台能力还是可以的,欢迎大家调用,甚至是疯狂调用。

— 20 —

Q: 信息抽取的工具是否开源了呢?

A: 不开源。但即将作为平台服务推出,欢迎使用。

— 21 —

Q: 一句话中出现多个实体时,有什么好的方法来识别中心实体吗?

A: 这个问题已经很细致的,属于NLP范畴,建议查询相关论文,如果没有相关工作,恭喜你找到了一个值得发paper的新问题。

— 22 —

Q: 请问谢博,图存储那块底层用的是什么工具,目前的数据规模怎么样,谢谢。

A: 见上面某条有关图数据库的讨论回复。 建议深入考虑你的负载特点以及数据规模,再决定是否以及如何使用图数据库。

— 23 —

Q: 远程监督做抽取的效果如何?可否给出几篇你们paper的链接?

A: DS是未来几年最为值得关注的研究方向。我们有些这方面的论文,在审稿中,paper就不公开贴了,可以私下讨论。

— 24 —

Q: 实体发现和实体关系抽取的做法有哪些呢?

A: 这个问题太大了。先看看CMU NELL组做的工作吧。然后再看看MPI Gehard Weikum组的在sigmod等一系列会议上关于harvesting knowledge from web的tutorial吧。以及今年AAAI上Allen AI research institute的 knowledge graph construction的tutorial吧。

— 25 —

Q: QA文本和dialogue文本的实体识别有什么不同吗?

A: 这是个有意思的问题。能注意到这个差别,说明您做的还是很深入的。

差别还是有的,dialogue更多要注意整个conversion中的上下文,更多的是实体指代问题。QA不存在复杂的conversion上下文,一般只能从question或者answer中识别。

— 26 —

Q: 实体对齐以及冲突消解过程,用到人工校准了吗?目前需要多大的人工量?

A: 在领域应用中,最后一步必然是人工检验。在我们这类大规模知识图谱中,如何校验事实上还是件很难得事情。我们已经引入了基于众包的反馈机制。还有一些不便披露的研究项目旨在解决这一问题。大家可以关注知识工场微信号,以及我们的一个CN-DBpedia开发者群,会不断披露相关细节。

— 27

Q: 请问谢博,schema大致包括哪些内容?另外,不同数据源之间如何做归一?

A: 回答这个问题最好的方法,是建议大家看看DBpedia的schema,基本包括type, predicate, taxonomy. 这些是最为meta的schema。 多数据源融合,这个问题很可能是学术界骗了工业界若干年的伪命题,至少在图谱构建问题中是这样的。我要告诉大家的是:(1)信其一,就不要信其二(2)天下武功,唯快不破(3)足够快,就可以足够好。具体的就不点破了。

— 28 —

Q: Mention to entity一般有哪些做法呢?

A: 大数据分析是典型应用场景。想当年,王宝强离婚案时,新浪微博排第一的是王宝强离婚,排第二的是宝强离婚,排第三的是宝宝离婚。 有了metion-to-entity是不是就可以避免这种尴尬了呢?

来源:paperweekly

原文链接

时间: 2024-10-23 14:16:22

第1期Talk实录 | CN-DBpedia构建技术和思路的相关文章

《中国人工智能学会通讯》——12.53 知识图谱构建技术

12.53 知识图谱构建技术 知识图谱中知识的来源有两类,一类是互联网上分布.异构海量资源:一类是已有的结构化的异构语义资源.从第一类资源中构建知识图谱的方法根据获取知识的类型分为概念层次学习.事实学习.事件学习等,而第二类资源进行的工作是异构资源的语义集成. 概念层次学习 概念是人们理解客观世界的线索,是人们对客观世界中的事物在不同层次上的概念化描述,概念层次是知识图谱的"骨骼".概念层次学习就是通过合理的技术,抽取知识表示中的概念,并确定其上下位关系.概念层次学习多采用基于启发式规

大规模代码构建技术实践

在云效持续集成持续交付专场直播中,阿里技术专家何卫龙为大家带来了<大规模代码构建技术实践>的分享.本次分享主要从持续集成的背景,持续集成平台的演进过程,以及如何进行大规模持续集成构建三部分展开,内容精彩,不容错过. 以下内容根据讲师PPT和视频整理而成. 什么是持续集成? 大师Martin Fowler认为持续集成是一种软件开发实践,在实践中团队开发成员会频繁的进行任务的集成,通常每个成员每天都会集成一次,也就意味着每天可能会发生多次集成.每次集成都通过自动化的构建来验证,从而尽快地发现集成错

《中国人工智能学会通讯》——第6章 6.1 基于深度学习技术的知识图谱构建技术研究

第6章 6.1 基于深度学习技术的知识图谱构建技术研究 随着互联网.云计算等技术的发展,信息资源不断丰富,人们的知识需求也有所增长.如何正确理解知识需求,定位和提取相关的知识,并提供有效的知识服务,是知识工程的重要研究问题.其中,知识图谱作为目前主流的知识工程基础技术,支撑着包括智能搜索.智能问答.个性化推荐等多种知识服务,涉及到知识表示.知识获取.知识融合.知识推理等关键技术. 知识图谱是对知识的结构化表示,其核心思想是将现实世界的知识表达为实体和实体之间关系的形式.实际上,在知识图谱被提出之

第3期Talk实录 | 数据驱动的大规模分类体系构建

Q & A Q 对于关系传递性的正确性判断这篇论文,文章是建立在构建标注数据和特征上来做的,想请问下有没有一个宏观的解释,在什么情况下传递性成立以及什么时候不成立呢?换句话说,不成立主要是因为什么引起的呢? 梁家卿 因为我们使用的是一个黑核,就是机器学习模型,所以我们很难知道它具体是由于什么原因引起的.我猜想的话,主要是因为中间词 B 意思的偏移,但是这个偏移我们很难严格的定义.总来说很难知道具体原因是什么,因为机器模型实在是不可解释. Q 对于 recall 的评估,文章的模型发现的错误 is

第4期Talk实录 | 基于知识库的问答

Q & A Q 请问崔博士,在 EntityLink 部分可以推荐一些比较好的 link 工具吗? 崔万云 应该还没有特别好的,我们在自己实现.不过有大量的相关文献.英文也有现成的应该.中文的必须自己实现.可以搜一下 gerhard weikum 在 sigmod 的一个教程,里面有提到. Q 请问一下,在基于多粒度的神经网络模型中,没一种特征采用了不同粒度的表示,请问在用不同粒度表示的向量在 merge 的时候是直接 concatenate 还是加权求和,或者其他?如果是加权的话,对于不同的粒

第2期Talk实录 | 词向量的几何分布及其应用

[ Q & A ] 本次 Talk 中涉及的三篇 paper 如下: https://arxiv.org/abs/1702.01417 https://arxiv.org/abs/1611.09799  https://arxiv.org/abs/1610.07569 请问穆博士,您能详细的讲一下 subspace representation 的方法吗? 穆佳琦:感谢提问!首先将所有词的 vector 堆叠成一个矩阵,提取这个矩阵的若干个(3-5)主成分,然后这几个主成分对应的 vector

No.53期分享实录:应用场景驱动容器方案选择设计

今天的线上分享,我们来说说容器和应用这亲密的哥俩. 你对应用系统好,那么应用系统就对你好. 你对应用系统说,hi,上container吧! 一切问题都解决,那么就等着应用系统忽悠你. 应该说container比起VM更贴近应用,可以理解为应用的"虚拟机",对应着VM是OS的虚拟机. 我们上container的目的是为了应用,因此问题的本源是应用而非container,一个应用系统本身设计的好坏决定了最终应用的效果, 因此说设计好应用,才能用container的手段更好地支撑它. 从应用

PaperWeekly 第33期 | 基于知识图谱的问答系统关键技术研究 #03

" 崔万云 复旦大学知识工场实验室博士生 研究方向为问答系统和知识图谱 第 5 节 复杂问题回答 这一节详细阐述如何回答复杂问题.首先第 5.1. 节将问题形式化为一个最优化问题.第 5.2. 节和第 5.3. 节分别阐述优化量度和算法. 5.1. 问题陈述 本节着重关注由一系列 BFQ 组成的复杂问题,例如表 1.1 中的问题 ○f 可以被分解为两个 BFQ:(1) BarackObama'swife (MichelleObama):(2) WhenwasMichelleObama born?

不止是冰山一角——阿里云效团队大规模代码构建技术实践

视频地址:https://yq.aliyun.com/webinar/play/216 什么是持续集成? 大师Martin Fowler认为持续集成是一种软件开发实践,在实践中团队开发成员会频繁的进行任务的集成,通常每个成员每天都会集成一次,也就意味着每天可能会发生多次集成.每次集成都通过自动化的构建来验证,从而尽快地发现集成错误,快速进行修复.   如上图所示,一个完整的持续集成环节包括:首先项目经理创建一个项目,将项目成员添加到项目中:开发人员在项目中拉取开发分支进行代码开发,在开发过程中,