[ Q & A ]
在QA环节中,谢博士请来了知识工场指导老师,复旦大学肖仰华教授,为大家深入解答所有问题。肖老师简介参看http://gdm.fudan.edu.cn/GDMWiki/Wiki.jsp?page=Yanghuaxiao。
— 01 —
Q: 请问中文的特定领域nlp模型训练怎么解决标注集不足?
A: Good question. 领域样本总是稀疏,可以考虑迁移学习,特别是基于深度学习的迁移学习,目前这个领域的研究刚刚开始,可以参考:http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Data%20Driven%20Approaches%20for%20Large%20Scale%20KG%20construction.pdf的最后部分。
— 02 —
Q: 请问目前工业界做命名实体识别都采用那些方法?神经网路在效率上能否达到实时性?如何做短句子的命名实体识别,比如:北京饭店识别为北京饭店,而不是北京 饭店?
A: 常规的基于分类模型的NER已经很多,短文本中的NER目前是个难题,目前准确率不高。我们最近在推实体识别服务,大家可以予以关注。短文本理解是当前的研究热点,可以参考我团队的:http://gdm.fudan.edu.cn/GDMWiki/attach/By%20Year/Syntactic%20Parsing%20of%20Web%20Queries.pdf一文。
— 03 —
Q: 你们在构建知识图谱过程中对其中的各个任务,方便介绍一下用到了哪些高效工具否?CN-DBpedia已具有一定规模,当前及未来的工作方向是什么?
A: 知识图谱构建是个系统工程,需要集成大量的文本处理、知识构建等相关模块。目前还缺乏完整的一站式平台或工具。CN-DBpedia未来的方向有几个,一是深化服务。基于KG的语言认知服务是国内外人工智能的短板,而这恰是我知识工场的强项,见PPT:http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Language%20Understanding.pdf。我将在下周二的将门直播里,讲解这方面的工作。二是横向拓展。CN-DBPeida近期将融合更多领域知识,推出重量级的中文ISA概念分类体系,并加强这些不同领域库之间的关联。真正意义上做到纵横捭阖的知识体系。三是能力平台化。KW将把我们的图谱构建能力逐步平台化、服务化,让更多的有着图谱构建需求的团队受益。
— 04 —
Q: 你们API免费开放,方便的话能否分享一下你们商业模式的构想?
A: 这也是个很好的问题。知识图谱如何变现一直是困扰很多技术团队的大问题。KW实验室摸索KG变现已有多年历史,我们业已酝酿多种变现方式,不便公开透漏,如感兴趣,可私聊。对于通用百科图谱,我们更多的是做公益,促进整个AI生态的发展。
— 05 —
Q: 再问下你们在构建知识图谱中遇到的最大困难或者问题是什么,解决方案如何(如果方便介绍的话)?对于想要或者正在构建知识图谱的人有哪些建议,以及要注意哪些坑?
A: 对于我们来讲没有技术难题:)更多的是技术之外的问题。建议是有很多的,这几年也看到了媒体宣传与炒作的很多误区,由于时间与篇幅有限,仅列几条供大家参考:1. 应用驱动。时刻想着图谱建好怎么用,不要为图谱而图谱
2. 迭代构建。不要一蹴而就,要小步快跑,每个小步,建一些图谱,训点模型,人工校验;再快速进入下一周期,往复循环,逐步优化。3. 人机协作。 当前AI水平还没到完全取代人的地步,一个实用的图谱必须要有人的参与。更多的这里就不展开了。我会在复旦大数据前沿课程里,开设知识图谱专题系列讲座,感兴趣的可以来听听。
— 06 —
Q: 企业已经有自己的信息系统,也有自己的IT,如果想构建知识图谱的话,需要多少投入(尤其是人员和技能),怎么切入进行规划?
A: Case by base. 行业智能化已经大量的在酝酿基于知识图谱的智能解决方案。我们有幸也为国内最大的IT公司提供过这类咨询与方案。不同的行业,不同的业务,不同的IT环境,有着不同的方案。目前还没成熟到off-the-shelf的地步。
— 07 —
Q: 请问CN-DBpedia如何和某个行业内部的私有数据集来结合的?
A: Good question. CN-DBpedia的一部分是通用百科。可以利用通用百科知识扩展私有数据的理解。比如一个数据项的值是傅里叶变换 ,通过查CN-DBPEdia你可以知道它是一种数值转换算法,也知道它有别称,比如傅立页变换,英文Fourier transformation. 这些背景知识可以帮你做企业智能搜索,比如你搜“傅里叶变换”,我们也可以比配Fourier,还可以基于它是数值转换算法的知识,推荐相关变换算法。这些案例已经发生,可以关注kw主页的很多系统demo,很多系统demo其实都是真实案例的演示版。再多细节就不便透露了。
— 08 —
Q: 知识图谱领域,除了歧义消解,命名实体识别,词性标注,还用到NLP的哪些技术?
A: NLP的一个子领域叫信息抽取,与知识库构建是关系最为密切的。但是务必认识到KG构建是一系统工程,而非单单NLP那么简单。这也是目前国内较为普遍的一个误区,认为图谱就是也只是NLP的菜。事实上KG涵盖NLP,机器学习、知识表示、知识推理、数据管理等众多领域,是个系统工程。
— 09 —
Q: 请问从各类文本(长文本,短文本)抽取三元组吗?文本自动摘要对于知识抽取有没有帮助或者有没有必要?
A: 摘要有很多种做法,如果是key sentences based得摘要,某种程度上对于三元组抽取是有意义的,可以用作剪枝与过滤。建议看看我实验室的knowledge-rich sentence extraction的论文,当然这个论文还在审稿中,可以私下索取。
— 10 —
Q: 想问对于非结构化的大量文本数据通过NLP抽取出结构化信息的问题。命名实体识别如何可以提高准确率,实体之间的关系怎样可以自动化有效抽取,抑或还是需要人的大量参与?大量的图谱数据如何有效存储和查询?
A: NER除非是新实体,也就是NLP领域常说的字典未收录的实体,需要NER方法外。在真正的实际的应用中查字典就是最好的NER方法。我们都已经有了这么多KG,富含这么多实体及其相关结构化信息,用他们来自NER不比基于文本的特征容易地多么? 关系的自动化抽取,参看我的PPT:http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/Data%20Driven%20Approaches%20for%20Large%20Scale%20KG%20construction.pdf最后部分,如何通过基于深度学习的端到端抽取,降低人工成本。图谱的存储与查询,这里给大家几条忠告,这也是当前很多认识上的误区。不要一想到图谱,就是图数据库。本人曾在msra研发图数据库,国际最早的几篇分布式图数据库都是我们团队发表的(可以参看我们在sigmod上的tuorial:http://gdm.fudan.edu.cn/GDMWiki/attach/Yanghuaxiao/adl-talk.pdf, tutorial in SIGMOD 2012)。我的建议是看图数据的使用场景,规模巨大,复杂查询,需要用图数据库。其他场合一般数据库即可。
— 11 —
Q: 自然语言生成与知识图谱的联系?
A: 有意思的问题。我们正在研究相关问题,细节不便透露。今年下半年论文出来再讨论。要指出的是,NLG可以显著受益于KG,如果你的model能够有效利用KG。事实上,如何让当前的大量的统计模型,特别是DL模型有效利用来自KG的先验知识是个重大科学问题,也是有着巨大商业价值的问题。如果感兴趣的可以来我们组访问交流。
— 12 —
Q: 请问如何在kw里面获取特定领域的知识图谱资源?
A: 我们有个算法从通用知识图谱导出领域图谱资源,一般都是线下合作。
— 13 —
Q: 请问下有没有深度学习应用于知识图谱构建的相关工作?
A: 有。我们已经投了好几篇此类论文。 部分工作在前面的几个PPT里面有提及。具体就不展开了。
— 14 —
Q: 通用接口怎么调用?
A: 见API介绍,http://kw.fudan.edu.cn/apis/intro/。
— 15 —
Q: 请问CN-DBpedia的数据是不断更新的吗?是否存在一个迭代的过程不断提升数据的质量?
A: 新版CN-DBpedia最大亮点是实时更新。川普这边刚刚就职,我们这里有关美国总统的词条就会更新。我们努力做到这点是为了让调用我们的应用不会miss掉最新知识。至于如何做到的,还是先卖个关子,不过我会在复旦的大数据课程里介绍。我们已经提交了相关论文,尽请关注吧。
— 16 —
Q: 请问CN-DBpedia上层有没提供查询接口,可否提交sparql查询来获取信息?
A: 这是来自语义网背景的人常提的问题。我们曾经真的这么做过,后来发现这是传统思维给我们的误导。不会有真实应用写那么复杂的query的。连我这个常年做图数据库的看到一个sparql还要仔细研究一番才能明白其语义,你怎能指望你的用户写出这么复杂的query。未来的query应该是自然语言。研究sparql某种程度上是“倒行逆施”。当然,如果你想发paper,还是有机会的。sparql至多作为一种中间机器语言,不适合作为终端用户,哪怕是程序员,要面对的语言。
— 17 —
Q: 请问有没有公开的数据集,作为其他研究者开发领域知识图谱的训练数据使用?
A: 应大家广泛要求,KW将提供DUMP供大家测试用。但是DUMP无法做到实时。此外,我们也在研发更精准的数据标注服务,目的就是利用知识图谱提供数据标注服务。这些都在研发阶段,如有需求可以私下联系。
— 18 —
Q: 问个数据源的问题,百科类的你们只选用了百度、互动、中文维基百科吗,有没有什么依据,像360,搜狗之类的数据内容有没有做过对比?
A: 同上。
— 19 —
Q: 现在在工作中有用到 CN-DBpedia,想知道一下通用接口在使用频次等方面有没有什么限制,谢谢。
A: 目前完全免费,且没有任何调用限制。 我们的平台能力还是可以的,欢迎大家调用,甚至是疯狂调用。
— 20 —
Q: 信息抽取的工具是否开源了呢?
A: 不开源。但即将作为平台服务推出,欢迎使用。
— 21 —
Q: 一句话中出现多个实体时,有什么好的方法来识别中心实体吗?
A: 这个问题已经很细致的,属于NLP范畴,建议查询相关论文,如果没有相关工作,恭喜你找到了一个值得发paper的新问题。
— 22 —
Q: 请问谢博,图存储那块底层用的是什么工具,目前的数据规模怎么样,谢谢。
A: 见上面某条有关图数据库的讨论回复。 建议深入考虑你的负载特点以及数据规模,再决定是否以及如何使用图数据库。
— 23 —
Q: 远程监督做抽取的效果如何?可否给出几篇你们paper的链接?
A: DS是未来几年最为值得关注的研究方向。我们有些这方面的论文,在审稿中,paper就不公开贴了,可以私下讨论。
— 24 —
Q: 实体发现和实体关系抽取的做法有哪些呢?
A: 这个问题太大了。先看看CMU NELL组做的工作吧。然后再看看MPI Gehard Weikum组的在sigmod等一系列会议上关于harvesting knowledge from web的tutorial吧。以及今年AAAI上Allen AI research institute的 knowledge graph construction的tutorial吧。
— 25 —
Q: QA文本和dialogue文本的实体识别有什么不同吗?
A: 这是个有意思的问题。能注意到这个差别,说明您做的还是很深入的。
差别还是有的,dialogue更多要注意整个conversion中的上下文,更多的是实体指代问题。QA不存在复杂的conversion上下文,一般只能从question或者answer中识别。
— 26 —
Q: 实体对齐以及冲突消解过程,用到人工校准了吗?目前需要多大的人工量?
A: 在领域应用中,最后一步必然是人工检验。在我们这类大规模知识图谱中,如何校验事实上还是件很难得事情。我们已经引入了基于众包的反馈机制。还有一些不便披露的研究项目旨在解决这一问题。大家可以关注知识工场微信号,以及我们的一个CN-DBpedia开发者群,会不断披露相关细节。
— 27—
Q: 请问谢博,schema大致包括哪些内容?另外,不同数据源之间如何做归一?
A: 回答这个问题最好的方法,是建议大家看看DBpedia的schema,基本包括type, predicate, taxonomy. 这些是最为meta的schema。 多数据源融合,这个问题很可能是学术界骗了工业界若干年的伪命题,至少在图谱构建问题中是这样的。我要告诉大家的是:(1)信其一,就不要信其二(2)天下武功,唯快不破(3)足够快,就可以足够好。具体的就不点破了。
— 28 —
Q: Mention to entity一般有哪些做法呢?
A: 大数据分析是典型应用场景。想当年,王宝强离婚案时,新浪微博排第一的是王宝强离婚,排第二的是宝强离婚,排第三的是宝宝离婚。 有了metion-to-entity是不是就可以避免这种尴尬了呢?
来源:paperweekly