CCAI 2017 | 专访德国语言技术领军者 Hans Uszkoreit:深度学习还不足以解决 NLP 核心问题

会前,我们采访到了大会 Keynote 嘉宾、德国人工智能研究中心科技总监 Hans Uszkoreit 博士。

Uszkoreit 博士是中德两国人工智能合作的核心人物,负责德国人工智能研究中心在中国的所有合作项目,今年 3 月,他刚被任命为在北京新成立的人工智能技术中心(AITC)总监兼首席科学家。在访谈中,Uszkoreit 博士谈到了人工智能在工业 4.0 和商业智能上的应用,以及中、美、欧在人工智能领域的差异。

对于他的老本行,Uszkoreit 博士认为,语言技术是人工智能的核心部分,但当前的深度学习方法还不足以解决 NLP 领域的核心问题。他提到汉语在语义理解上的潜力。说起不久前 NLP 领域的大论战,Uszkoreit 博士认为 Yoav Goldberg 敢于倡导正确科研行为的严格规则,是个英雄。

以下是访谈全文:

中国 AI 研究需要覆盖所有领域

CSDN:最近,媒体常常拿中美两国的 AI 行业和研究成果进行对比。对于中美、中欧在 AI 领域的差异,您有什么看法?以您的理解,哪一方能引领这一轮的人工智能革命?

Hans Uszkoreit:欧美的 AI 研究有着长期的广泛基础,但中国正以惊人的力量和热情追赶上来。在某些研究领域,中国的研发速度可能比美国还快。然而,中国的 AI 研究只是集中在少数几个热门领域,可热点和趋势总是来了又去。下一代 AI 架构,将会用到具备大量认知任务和能力的、广泛擅长于 AI 的系统。我希望中国的研究人员能有足够的动力迅速来覆盖所有的 AI 研究领域。

我个人所期待的人工智能突破,是多种感官信息输入的交叉领域,以及 AI 在常识性知识与直觉的获取。

欧洲在语义学技术、神经网络与机器翻译等领域的研发投入上往往准备充足,但研究成果在科学上的成熟与商业上的收获更多发生在美国。其中的例外,是制造业领域的 AI,它是欧洲、特别是德国的强项。而今中国在 AI 领域的下游应用研究与上游资金投入上同美国的大力竞争,则相当耐人寻味。前者是今天 AI 应用的关键,后者则有可能逆转我们过去的 AI 创新流程。

CSDN:在深度学习近年来的进展上,有许多像李飞飞这样的华人 AI 科学家和 AI 研究者,他们在其中做出了突出的贡献。据我了解,您的许多研究伙伴也是华人,您能说说选择他们的理由吗?华人在 AI 研究领域有什么优势呢?

Hans Uszkoreit:长期以来,我都非常喜欢跟中国的博士生或博士后研究员们一起工作。他们头脑聪明、积极主动、精力充沛而又注重实效。一般说来,中国研究者的高中和大学基础都非常扎实。我个人的体会是,中国和西方研究者的混合团队,其合作效果出奇的好。我会在北京继续推动这种跨文化的合作。我相当期待接下来同过往的亲密同事和学生们的交流,他们现在大都在中科院、中国的大学和公司工作。

投资环境和早期市场是 AI 创业成功的保障

CSDN:前不久,您刚任职北京人工智能技术中心(AITC)总监兼首席科学家。您能跟我们介绍一下您这份新工作,以及这个新的研究机构吗?

Hans Uszkoreit: AITC 在今年 3 月份成立于北京的亦庄经济技术开发区。它的使命,是把 AI 技术从研究成果转化为工业应用。在德国,我们还没有特别成功的商业化 AI 案例。有好多次,我参与创立的公司都是过早进入市场,好在历经多年的挣扎,这些公司都活下来了。但更多的情况是,由于缺乏资金,我们只能眼睁睁看着美国的竞争对手取得成功。他们不光有着更好的投资环境,同时还拥有一个更大的早期市场。

在中国,我也同时注意到了这两大因素的存在:一种友善的投资氛围,加上一个需求庞大而前卫的 B2B 市场。在我的老东家 DFKI(德国人工智能研究中心),我们同 20 多家工业股东进行过合作研究,还创立过超过 80 家衍生企业,在 AI 技术转化方面的这些经验都来之不易。

基于这样的经历,AITC 有能力实现这样的技术转化及其研究机制,以及成功的商业化 AI 的最佳实践,这让我们同时也有能力来帮助这一领域的其他人。

CSDN:工业 4.0 和商业智能将成为主流的 AI 应用场景,但这两大领域的不同之处在哪里?对于 AI 在此所取得的突出成绩,有没有什么具体的实例?

Hans Uszkoreit:第四次工业革命是由工业界所有的部门、设备、人员之间完全的数字化连接所触发的,工业 4.0 是一个针对于此的广泛说法。这种完全的数字化连接是由物联网来实现的,其中还包括机器、产品、车辆和建筑之间的连接。

商业智能适用于所有的公司,不只针对制造业。它的基础是组织内部有关从战略决策到日常运作的所有决策过程的数据。这些数据大多来自公司内部,但很多重要的信号来自于外部的消费者、投资者、政策制定者、供应商和承包商,以及员工们的生活领域。对所有这些数据的分析,有助于做出更好的决策,甚至优化并调整决策的过程。

对于制造业来说,商业智能是工业 4.0 的一部分。今天我们所能看到的,只是商业智能与工业 4.0 的第一步。这里的数据通常是需要去主动获取与整合的。对于数据解释,特别是针对非结构化的数据,AI 将扮演一个重要角色,并从数据中不断学习。物流与供应链领域的控制、优化以及预测管理,就是这方面 AI 应用的具体实例。

语言技术是 AI 的核心

CSDN:您是语言技术顶级专家。就语言技术来说,它在 AI 中的角色是怎样的?前景如何?对于自然语言处理,它是否也存在一个突破性的时刻,正如深度学习之于图像识别、语音识别那样?

Hans Uszkoreit:语言是知识的钥匙,而知识正是 AI 的终极目标。人类社会的知识,正是通过语言来代代相传的。仅靠观察他人,人类是无法获取到广泛的可复用知识的。对于下一代智能系统所需的知识,人工智能必须能同时进行“阅读”和“聆听”才能获取到。而此等程度的机器学习,其关键技术正是 NLP。NLP 还是实现人与 AI 之间成功沟通的技术关键。所以说,语言技术是 AI 的核心部分,并将在很大程度上同知识技术相结合。

CSDN:您怎么看当前的消费级语言技术?特别是当下大热的智能语音助手,比如亚马逊的 Echo、苹果的 HomePod 等?

Hans Uszkoreit:这些智能助理正在成为我们日常生活的一部分。我自己也每天都在使用。它们还远未完美,但能被快速改进,因为其前卫的用户每天都在提供大量的免费数据给它们。

汉语在语义理解上有一定潜力

CSDN:对于不同的语言,其语言处理技术有何差异?比如说,汉语和英语。

Hans Uszkoreit:不同的语言差异确实很大。尽管作为口语,汉语和英语都能在同样的时间内被小孩学会。但细节上,汉语没有词法,句法也相当简单。二者作为书面语,绝无可能在同样的时间内被人学会。事实上,汉语的复杂性绝无仅有。这对 NLP 来说更为棘手:汉语词汇甚至都没有起始标识。除了语言本身所固有的复杂性,汉语更难于用电脑处理的原因还有另外一个:NLP 一直是被以英格兰为中心的研究所主导。

但如果 NLP 未来的研究方法和算法在处理汉语和其他东亚语言时的效果能超过英语,我也不会特别意外。这有一个先决条件,即找到语义理解上的改进办法,毕竟句法在汉语中的重要性要远小于西方语言。

深度学习还不足以解决 NLP 的核心问题

CSDN:上个月,Yann LeCun 对阵 Yoav Goldberg 的那场 NLP 大争论十分引人注目。您如何看待这场争论,特别是深度学习和 NLP 的关系?您支持哪一边的说法?为什么?

Hans Uszkoreit:我认为这场争论被误读了,它不是一场 NLP 领域的深度学习倡导者与怀疑论者之间争执,它不是那样开始的。Yoav Goldberg 不是反对深度学习,他也不是反对深度学习在 NLP 领域的应用。相反,Yoav 大力推动了深度学习在 NLP 领域的应用。

Yoav Goldberg 只是对那篇自然语言生成(NLG)领域的标题党论文表示不满,它只是在吹嘘一些很小的成果。Yoav 的说法并没有错:那篇标题党论文对于 NLG 领域的研究进展毫无意义,它未能解决 NLG 领域所公认的任何问题。

而 Yann LeCun 和 Fernande Pereira 认为他们应该站在论文作者一边的原因,是确实有很多的 NLP 研究者极端怀疑深度学习在语言分析和生成上的作用。LeCun 和 Pereira 把这种怀疑主义视为过时的研究范式反抗深度学习大法的无力尝试。保守派对阵革新派,这是科学革命中的古老游戏。但这绝非是 Goldberg 此次争论的目的。

我个人的看法是:当前的深度学习方法还不足以解决 NLP 领域的核心问题。但它们已经改善并实现了 NLP 技术的很多应用。深度学习此处的不足,并不在于当前所用的各种人工神经网络及其各自的学习算法,而在于我们还没有正确类型与足够数量的语言类标注数据。人类语言和人脑共同进化的方式,是语言能被用来表达信息和知识的同时,还能让儿童用很短的时间就能学会。语言的这种可习得性与基本知识概念的可习得性紧密相连。没有语言就无法学到概念,不与概念想结合也无法学到语言。如果我们可以找出一个能同时教会人工智能语言和概念的方法,问题就解决了。这里的第一步就是基于人工神经网络的可复用知识的机器学习。

在这样的技术变革形势下,Goldberg 只是在倡导正确的科研行为的严格规则。但我们都清楚,面对这样的环境,惯常的行为标准并不总是适用。在社会变革中,有勇气在正确的时刻说话的人,往往都是我们历史上的英雄。

给年轻从业者的三条建议

CSDN:在您的人工智能生涯中,最宝贵的经验是什么?对于新一代的 AI 从业者,您有哪些建议?

Hans Uszkoreit:我有三条小建议。

扩展视野:多去国外看看,或至少能在跨国企业工作一段时间。我在美国待了将近十年,并领导过多个国际项目。我一直都是一个国际博士生项目的共同负责人,我还主持过一个国际研究生项目。我在国际项目、暑期学校与会议中的经历,极大地丰富了我的专业能力和个人生活。

爱上数据,尽量为你所爱的数据工作:它可能属于商业统计、图片、音频、视频或文本,所有这些数据都有它们各自独特、丰富且有意义的内在结构。尽量弄懂这里的结构,尽量靠自己来解释数据。一定要坚持做高质量的错误分析,甚至要自己去读这些错误数据。尽量把算法的特性和数据的特性联系起来去看。

尽量去接触自身领域之外的研究:至少,要能不时地去考量你的子领域同相邻领域的关系、你的数据同其他类型数据的关系、你的方法同其他方法间的关系。不要因为你不理解就放过同其他领域专家进行交流的机会,敦促他们用最简单的方式来解释他们的问题和解决方案,同时尝试以同样的方式来解释你自己的研究工作。多了解人类的认知机制,即便机器智能的机制是一种完全不同的方式。

CCAI 演讲亮点

CSDN:您在 CCAI 演讲主题是“结合机器学习和知识解释的商务智能应用”,但相对于上一代基于规则的人工智能,机器学习和深度学习近年来突飞猛进、硕果累累,那么,我们为什么还需要这种基于规则的知识工程?

Hans Uszkoreit:当前,深度学习主要用来获取某种形式的“智能”行为。对于给定的输入,系统能够习得人类的方法并做出反应。这些系统还没有外在的可复用知识,但能够获取到一些内在知识。只是这样的知识通常无法被复用于其他任务。我并不支持人工智能像 30 年前所尝试的那样来使用知识工程,但我坚信人工智能终将找出办法来使用人类已有的海量的外在知识(如维基百科或结构化的 DBpedia 等),并且它很快就能自动获取更多的外在知识。

与其讨论深度学习与深层知识间的竞争关系,我更愿意去思考这两大技术有效结合起来的前景:只要机器能够从人类身上学习,它就有可能学会数以百万计的人的知识。

CSDN:您对本届 CCAI 大会有何期待?您最想听的演讲时哪一场?

Hans Uszkoreit:中国有很多我还不知道的 AI 研究团队和研究中心,对于他们的研究成果与应用创新,我特别期待。对于中国公司所能贡献的 AI 成果,我相当好奇。

关于 CCAI

作为中国国内高规格、规模空前的人工智能大会,本次大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。

目前,大会 8 折优惠门票正在火热发售中,点击这里火速抢票。

本文出自人工智能头条公众号,原文链接

时间: 2024-10-04 08:58:11

CCAI 2017 | 专访德国语言技术领军者 Hans Uszkoreit:深度学习还不足以解决 NLP 核心问题的相关文章

华米CEO黄汪谈2017的人工智能战略:发力于深度学习平台与深度学习芯片

近日雷锋网(公众号:雷锋网)了解到,华米科技 CEO 黄汪在 2017 新年内部信中写到,华米成立人工智能实验室,并将发力深度学习平台的搭建和基于 DL 的可穿戴芯片的研发. 黄汪提到,人工智能是一种能力,华米经过今年一整年的准备,在近期宣布成立华米人工智能实验室,并声称在 2 年内成为业内顶尖的 AI 团队.据悉,华米人工智能实验室不仅负责搭建华米手表在云端运动及健康大数据的深度学习平台,还将与第三方合作,主导研发自有的第一颗基于深度学习的可穿戴芯片. 黄汪曾提到:我一直认为华米是一家人体数据

【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

【Spark Summit East 2017】使用机器学习注释器和大规模深度学习本体进行语义自然语言理解

本讲义出自David Talby在Spark Summit East 2017上的演讲,主要介绍了一个通过自由文本格式的病人记录给出临床诊断推理和实时的参考意见的端到端系统,该系统的架构是构建在Kafka与Spark Streaming之上的,该系统可以实时地对于数据进行获取和加工,并使用Spark & MLLib进行建模,并通过Elasticsearch使得用户可以低延迟地对于结果进行访问.

AI 大师云集!CCAI 2017 中国人工智能大会盛大开幕

7月22日-23日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办,,独家直播的2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开. 作为由中国人工智能学会发起的人工智能领域顶级盛会,CCAI 代表着国内最高水准的产学研技术交流.本次大会更是在前两届成功经验的基础上,将全球人工智能领域的顶级专家.学者和产业界优秀人才汇聚一堂,围绕着当前 AI 热点话题.核心技术,以及与会者共同关注的科学问题

专访 | 杨强教授谈CCAI、深度学习泡沫与人工智能入门

7 月 22 - 23 日,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办,作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)将在杭州国际会议中心盛大开幕. 作为大会主席,香港科技大学计算机与工程系主任.AAAI Fellow 杨强教授最近接受了大会记者专访.这次访谈干货满满,其中有不少话题是杨强教授首度公开谈及,比如下一个 AI 突破口.深度学习泡沫.AI 之路心得.本科生入门 AI.好学生要能教导师学习,等等. (点击阅读杨强教授历史

对Gartner发布2017年十大技术趋势的分析

近日Gartner公司着重介绍了在2017年对多个组织具备战略意义的重大科技发展趋势.分析师在座无虚席的Gartner ITxpo座谈会介绍了他们的发现.这次发布的十大技术趋势报告,可以总结概括为:以智能为中心,通过数字化实现万物互联. Gartner将战略科技发展趋势定义为具有颠覆性潜力.脱离初级阶段且影响范围和用途不断扩大的战略科技发展趋势,这些趋势在未来五年内迅速增长.高度波动.预计达到临界点. "2017年十大战略科技发展趋势为Gartner智能数字网(Intelligent Dgita

专访 | 清华大学朱军:深度学习“盛行”,传统方法何去何从?

朱军博士是清华大学计算机系长聘副教授.智能技术与系统国家重点实验室副主任.卡内基梅隆大学兼职教授.2013年,入选IEEE Intelligent Systems的"人工智能10大新星"(AI's 10 to Watch).他主要从事机器学习研究,在国际重要期刊与会议发表学术论文80余篇.担任国际期刊IEEE TPAMI和Artificial Intelligence的编委.国际会议ICML 2014地区联合主席.以及ICML.NIPS等国际会议的领域主席. 清华大学计算机系长聘副教授

从传统 CAD 到深度学习驱动的影像系统:智能医疗落地三大技术挑战

图像识别是深度学习等 AI 技术最先突破的领域,而在 AI 与医疗场景的结合中,目前看来,基于深度学习技术的医疗影像的识别与分析,也很可能会在整个智能医疗.精准医疗领域一枝独秀,率先进入大规模应用阶段.   传统 CAD 不受医生的欢迎 实际上,计算机辅助检测(computeraided detection,简称CAD)很早就进入了人们尤其是医疗工作者的视线.有意思的是,很早以前就已经尝试使用过CAD系统的放射科专家们,在这一波智能医疗影像新技术的推广中并不热心,因为在他们的印象中,过去的CAD

2017年ACL的四个NLP深度学习趋势 (二):可解释性和注意力(Interpretability and Attention)

更多深度文章,请关注:https://yq.aliyun.com/cloud 2017年ACL的四个NLP深度学习趋势 (一):语言结构和词汇嵌入(Linguistic Structure and Word Embeddings) 趋势3:可解释性(Interpretability) 我最近一直在思考可解释性,然而我并不孤单,在深度学习实践者中,神经网络的可怕的"黑匣子"质量使他们难以控制,难以调试.然而,从非研究者的角度来看,有一个更重要的理由要求可解释性:信任. 公众,媒体和一些研