【ACL 2017 七大看点】北大、清华、中科院、复旦5 篇杰出论文

国际计算语言学协会 (ACL,The Association for Computational Linguistics),是世界上影响力最大、最具活力的国际学术组织之一,其会员遍布世界各地。ACL 会议是计算语言学领域的首要会议,广泛涉及自然语言的计算方法及其各类研究领域。ACL 2017 除了主要会议之外,还如同其他顶级会议一样包含研讨会、专题报告、研习会和演示等。第 55 届国际计算语言学协会(ACL)年会将于北京时间 7 月 31 日—8 月 5 日在加拿大温哥华举行(当地时间比北京时间晚 18 小时)。

接收论文:IE QA 文本挖掘应用占比最高

本届会议共收到 1419 篇投稿(长文 829篇,短文 590 篇),有 1318 篇文章(长文 751 篇,短文 567 篇)被发送出去接受审稿。最终,接收论文 302 篇(长文 195 篇,短文 107 篇),录取率 22.91%,与往届大致持平。

在整理投稿的过程中,我们可以发现一些很有趣的数字,也反映了一些很有趣的情况。

1. 提交时间

长文提交时间表:在截稿时期的最后 24 小时,提交数量陡增。

看见这个表,ACL 2017 的程序主席 Regina Barzilay 撰文表示,ACL 2017 委员会在大约还有 24 小时就要截稿的时候非常担心,因为那时候才仅仅收到 342 篇投稿,这次似乎邀请了太多的审稿人。但是很快,他们的心就放了下来——在截稿时间最后 24 小时,提交数量骤增。Barzilay 不禁感叹,看上去拖延症(或者说得好听些,追求完美)深深根植于 ACL 研究群体……

2. 投稿热门子领域

下面再来看看排名前 10 的子领域。

上图是根据投稿数量制作的饼图。可以看出,

  • 排名第一的是“信息提取、检索、问答、文档分析和自然语言处理应用”,有 308 篇投稿(长文 192 篇,短文 116 篇),占据了总投稿数量的 23.4%
  • 第二是语义,159 篇投稿(长文 100 篇,短文 59 篇),占比 12.1%
  • 第三是机器翻译,108 篇投稿(60 篇长文,短文 48 篇),占比 8.2%
  • 机器学习以 93 篇投稿(55 长,38 短)排名第 4,占比 7.01%

下面是各个子领域具体投稿数量,其中列出了预期投稿数(第一栏绿色铺底,其中红色数字代表了领域出现了意外的增长)。

可以发现,“对话和交互系统”在今年 ACL 投稿中的热度——有了超出 59.7% 的增长,这可能与亚马逊 Echo 和 Google Home 等智能音箱产品走热有关。其次是机器人视觉基础(Vision Robots Grounding),出现了 41.9% 的增长。机器学习以 34.4% 排在第三。

组委会将 2017 年的投稿情况与 2014 年的做了对比(见下),仅仅相差 3 年,在 ACL 2017 排名第 5 的 Summarization & generation,在 ACL 2014 连前 10 都没有进。 

3. 接收论文

接收论文 302 篇(长文 195 篇,短文 107 篇)。其中,各子领域的情况与投稿情况大致相同,也是 IE QA 文本挖掘应用排第一,语义、机器翻译列第二、第三。社交媒体类的论文在被接收论文中数量排名第四。

  • 生物医学:3篇(0.99%)
  • 认知建模与心理语言学:4篇(1.32%)
  • 对话交互系统:16篇(5.30%)
  • 语篇语用学:16篇(5.30%)
  • 摘要生成:20篇(6.62%)
  • IE QA 文本挖掘应用:56篇(18.54%)
  • 机器学习:19篇(6.29%)
  • 机器翻译:27篇(8.94%)
  • 多学科论文:10篇(3.31%)
  • 多语言论文:9篇(2.98%)
  • 音系形态学词分割:8篇(2.65%)
  • 资源评估(Resources Evaluation):11篇(3.64%)
  • 语义学:39篇(12.91%)
  • 社交媒体:22篇(7.28%)
  • 语音:3篇(0.99%)
  • 标注块语法分析(Tagging Chunking Syntax Parsing):20篇(6.62%)
  • 机器人视觉基础:7篇(2.32%)
  • 情感分析和观点挖掘:17篇(5.63%)

ACL 2017 还有 21 篇 TACL 论文展示,以及 21 个软件演示。

上面的结果可以有直观的表示:

接收论文数量:蓝色代表长文,绿色短文。(红色和紫色分别代表软件演示和在 TACL 发表的论文。)可以发现,IE QA 文本挖掘应用在接受论文中数量第一,其次是语义学,机器翻译排第三(长短文数量总和)。

研讨会、研习会:机器学习和深度学习是绝对关键词

ACL 2017 共有 32 个 workshop,其中有首次举办的“神经机器翻译”、“网络语言滥用”等 workshop,也有第 21 届北欧计算语言学大会和第 11 届语言注释(Linguistic Annotation)这些超过 10 年的 workshop。

根据官网最新公布的信息,ACL 2017 有 6 场 tutorial,其中有 4 场都冠名机器学习和深度学习,分别是:①多模式机器学习:整合语言、视觉和语音,②语义构成中的深度学习,③对话系统中的深度学习,④多单词表达和搭配中的深度学习,可见计算语言学中兴起的机器学习和深度学习浪潮,尤其是深度学习。

ACL 2017 还有 23 场 Student Research Workshop,这里的内容涵盖就很全面了,从分布式表示到 Attention 再到 Twitter 颜文字都有,但大部分都同时提到了机器学习或深度学习。

大会主旨演讲

ACL 2017 有两场 invited talks,一场偏理论,一场偏应用。

第一场:Noah Smith(华盛顿大学)

计算语言学和自然语言处理社区如今兴起了表示学习(representation learning)热潮。我将介绍在自然语言模型中使用表示学习的新方式。需要注意,一个数据驱动的模型总是有一个假设的理论(不一定是好的),我将论证语言相适应的归纳偏差(language-appropriate inductive bias)对结合了表示学习的语言模型的好处。这种偏差通常表现为模型中蕴含的假设,受限于推理算法或应用于数据的语言分析。事实上,几十年的语言学研究(包括计算语言学)使我们现在能很好地发现归纳偏差,而新的模型又可能使我们得以探索以前不可用的偏差形式,产生语言学的新发现。我将重点关注新的文档模型和语义结构,也会强调抽象的、可重复使用的组件及其假设(而非应用)。

第二场:Mirella Lapata(爱丁堡大学)

近年来,人们开发了大量计算工具来处理和生成自然语言文本。其中许多都变得广为人知,比如网络搜索,问答,情绪分析,尤其是机器翻译。网络的普及可以进一步增强这种处理,其应用不仅在不同语言之间(例如,从英语到法语)进行翻译,也包括在相同的语言之间,在不同的模式之间或不同的数据格式之间进行翻译。由于大多数检索工具对文本数据进行操作,所以网络中的非语言数据(例如视频,图像,源代码)不能被索引或搜索。

在这个演讲中,我会讨论为了使个人和计算机的电子数据更易于访问需要开发的新的翻译模型。我将重点介绍三个示例,文本简化,源代码生成和电影摘要生成。我将说明如何扩大深度学习的最新进展,以便引导不同模式的一般表述,并学习如何在这些和自然语言之间进行翻译。

中国大陆 5 篇杰出论文:清华、北大、复旦、中科院自动化所

今年早些时候,ACL 2017 公布了杰出论文,共有 22 篇。其中,有 6 篇第一作者是华人。在这当中,又有 4 篇来自中国大陆,清华、北大、复旦和中科院自动化所各有一篇入选。

下面根据每篇杰出论文在 ACL 2017 上展示的时间来排列:

论文:神经机器翻译的可视化及理解(Visualizing and Understanding Neural Machine Translation)

作者:丁延卓、刘洋、栾焕博、孙茂松(清华大学)

论文:了解和检测有争议问题的各种支持论证(Understanding and Detecting Diverse Supporting Arguments on Controversial Issues)

作者:Xinyu Hua and Lu Wang(美国东北大学)

论文:一种用于文本层面话语分析的两段解析方法(A Two-stage Parsing Method for Text-level Discourse Analysis)

作者:Yizhong Wang, Sujian Li and Houfeng Wang(北京大学)

论文:用于抽象文档总结的基于图的注意力神经模型(Abstractive Document Summarization with a Graph-Based Attentional Neural Model)

作者:Jiwei Tan, Xiaojun Wan and Jianguo Xiao(北京大学)

论文:通过一种基于新颖的打标签方案,对实体和关系进行联合提取(Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme)

作者:Suncong Zheng, Feng Wang, Hongyun Bao, Yuexing Hao, Peng Zhou and Bo Xu(中科院自动化所)

论文:命名实体识别和提示检测的本地检测方法(A Local Detection Approach for Named Entity Recognition and Mention Detection) 

作者:Mingbin Xu, Hui Jiang and Sedtawut Watcharawittayakul(加拿大约克大学)

论文:中文词分割的对抗多标准学习(Adversarial Multi-Criteria Learning for Chinese Word Segmentation)

作者:陈新驰、施展、邱锡鹏、黄萱菁(复旦大学)

主席团队:华人学者分布在 18 个领域中的 9 个领域

ACL 2017 的大会主席是宾夕法尼亚大学的 Chris Callison-Burch,两位程序主席是上面说过的 Regina Barzilay(MIT)和新加坡国立大学(NUS)的 Min-Yen Kan 教授。

由于论文的生杀大权基本掌握在领域主席手里,我们专门用一小节来看 ACL 2017 的领域主席。本届大会有 61 位领域主席,分布在 18 个子领域,各领域主席人数与投稿数量基本相符。其中,华人学者分布在下面 9 个子领域,不乏中国大陆学者的身影。

  • Discourse and Pragmatics: Yangfeng Ji, 李素建(北京大学)
  • Information Extraction and NLP Applications: Chia-Hui Chang, Jing Jiang, 刘康(中科院自动化所), 刘铁岩(MSRA)
  • Machine Learning: 王威廉
  • Machine Translation: 刘洋(清华大学), Minh-Thang Luong, 米海涛(中科院计算所), 熊德意(苏州大学)
  • Sentiment Analysis and Opinion Mining: Lun-Wei Ku
  • Social Media: 刘知远(清华大学), Shimei Pan 
  • Speech: Chia-ying Lee 
  • Summarization and Generation: Wenjie Li(香港理工大学)
  • Tagging, Chunking, Syntax and Parsing: Yue Zhang, 赵海(上海交通大学)

其他子领域,比如认知建模与心理语言学、对话和交互系统,没有华人主席的就没有列出。

赞助企业:BAT 齐聚,还有华为、搜狗、今日头条

大会的赞助商从一定程度上反映了与产业界的联系,从中也能看出学术成果的产业转化情况。ACL 2017 的赞助商数量虽然不如刚结束的 CVPR 2017 那样多,但列出来看还是很有重量——国外巨头如谷歌、亚马逊、Facebook、微软、IBM,国内有 BAT、华为、搜狗、今日头条——而中国企业(尤其是 BAT)已经在其中占据了重要位置。

白金赞助商有 7 家:

金牌赞助商:


银牌赞助商:

铜牌赞助商:


支持单位:

特设环节:本届 ACL 将为预印版论文制定评审政策

本届大会还在第二天中午特意开设了一个“meta conference”环节,讨论双盲评审以及 ArXiv 预印版相关话题。

许多研究表明,当工作的客观价值保持不变时,单盲评审会导致评审人更偏向于某些类型的研究人员。因此,所有 ACL 会议和大多数研讨会都使用双盲评审制度。而以 ArXiv 为代表的在线预印服务器的流行,在一定程度上威胁到了双盲评审过程。本届 ACL 会公开讨论一个针对预印版的政策。不仅如此,大会针对 ArXiv 的使用情况也做了调研。

根据报告《Report on ACL Survey on Preprint Publishing and Reviewing》,调查于 2017 年 6 月进行,收到了 623 份完整的回复。绝大多数受访者(93%)是现任或前任 ACL 成员,样本占协会成员总数的 20% 左右,在地域、性别和学术背景等方面均具有代表性。

受访者构成(从左到右):地域、性别和角色。17% 来自亚太地区,美洲 36%;72% 为男性;教授 28%,研究生 32%。

结果显示,有近半数受访者(53%)很少或从未使用预印服务器来托管他们的研究论文,近五分之一(22%)经常或总是这样做。

不愿意将论文放在预印刷服务器上的作者,多是因为打算在会议或期刊上发表,并希望确保双盲评审制度。而经常将研究论文放在预印服务器上的作者,有 28% 的人倾向于在接到通知前就上传,另外 43% 的人愿意等到论文被接收后再上传。那些还没接到通知就上传论文的人主要是想宣传自己的研究,或者是想抢论文发布的时间点(自己最早发表)。

至于是否阅读或引用预印版论文,结果显示,绝大多数调查对象(86%)有时会读,较少一些(54%)有时候会引用。那些不倾向于引用预印版论文的人几乎一致表示自己更愿意引用发表过的论文(如果有的话),同时认为预印版未经同行评议因此可靠性存疑。

最后,在被问及对未来 ACL 会议评审预印版论文政策时,绝大多数受访者(88%)认为在 ACL 会议上进行双盲评审至关重要。这些人中的约 75%(总受访者的 65%)认为双盲评审比能够提交预印本更重要。只有少数人(9%)认为预印出版比双盲评审更重要。

总结起来,很多受访者都表示双盲评审十分重要,同时预印版也加快了学术交流和传播。许多受访者认为,解决预印版和双盲评审之间冲突的最佳方式是让预印版服务器临时屏蔽作者身份(其他方面保持不变)。

还有很多受访者表示论文评审质量的下降表示了担忧。

文章转自新智元公众号,原文链接

时间: 2024-08-02 18:44:42

【ACL 2017 七大看点】北大、清华、中科院、复旦5 篇杰出论文的相关文章

ACL开幕式最全解读:大会的三个「最」和三个「第一次」都是什么?主席们分享了哪些肺腑之言?|ACL 2017

温哥华时间 7 月 31 日早上九点,ACL 2017 正式开幕.在开幕仪式上,包括大会主席在内的多位组委会代表上台发表致辞,并邀请了 ACL 现任主席.瑞典乌普萨拉大学的 Joakim Nivre 做报告.雷锋网(公众号:雷锋网) AI 科技评论第一时间发来现场报道. 三个「最」和三个「第一次」 本届 ACL 的规模创下了历史高峰:不论是论文的投递数,或是作为赞助商来到现场的企业数量都是前所未有的.ACL 大会主席先公布了一系列数字,在雷锋网 AI 科技评论看来,可以描述为三个「最」和三个「第

ACL前瞻:国内五篇作品入选杰出论文,华人影响力日渐显现|ACL 2017

ACL是自然语言处理和计算机语言学最顶尖的会议之一,被CCF(中国计算机学会)推荐为A类国际学术会议,涵盖领域包括语言分析.信息抽取.机器翻译与自动问答等.今年的ACL将于2017年7月30日至8月4日在加拿大温哥华举行.雷锋网(公众号:雷锋网)AI科技评论将赴前线带来一手报道,并对论文及大会概况进行梳理. 先上一组数字了解下今年ACL的投递情况: 根据统计,本届会议共收到1419篇论文,其中长文829篇.短文590篇,最终录用长文195篇(录用率23.5%).短文149篇. 在被录用的长文论文

ACL 2017 | 三位阿里人工智能专家独家解密NLP、机器翻译优秀论文

7月底到现在,全球最顶尖的人工智能会议已在全球各地先后落幕: CVPR 2017(国际计算机视觉与模式识别会议,Conference on Computer Vision and Pattern Recognition) ACL 2017(国际语言学协会,The Association for Computational Linguistics)) ICML 2017(国际机器学习大会,International Conference on Machine Learning) SIGIR 201

ACL的「深度学习热」:论文纷纷「入坑」,企业蜂拥「入局」|ACL 2017

演讲结束,掌声响起. 赵衡急急忙忙收拾东西离开座位,希望在人潮散场前赶紧离开 ACL 2017 的主会场,好找个地方看看接下来的议程--但也已经晚了.尽管大门试图严密地隔开场内场外,但赵衡推开门时,会场外熙熙攘攘.甚至显得有些吵闹的对话声涌进大厅,引来不少观众的回头侧目. 赵衡背着包,磕磕碰碰地跟着人海移动到下一个会场时,他心里只暗暗后悔没有再早一点离场. 「我猜主办方也没想到有这么多人,今年的场子定得太小了,」赵衡半是无奈半是欣慰地感慨道.作为国内 Top 5 高校的博士生,他感慨自己遇上了

ACL 第一天:Tutorial钟爱深度学习,唯一一个workshop关注女性群体| ACL 2017

雷锋网AI科技评论按:计算机语言学和自然语言处理最顶尖的会议之一ACL 将于2017年7月30日至8月4日在加拿大温哥华举行.雷锋网(公众号:雷锋网) AI 科技评论将赴前线带来一手报道,并对论文及大会概况进行梳理. 今天是预热 tutorial 环节,也是 ACL 会议延续至今的传统,旨在帮助研究领域的新手们了解计算机语言学与自然语言处理的核心技术,同时也会介绍目前这些分领域的一些前沿内容. 今年的 Tutorial 主席是科罗拉多大学的 Jordan Boyd-Grabe 和柏林洪堡大学的

ACL 2017,Facebook带来了哪些精彩内容?

雷锋网(公众号:雷锋网) AI科技评论按:ACL 2017已经在加拿大温哥华拉开帷幕,本次会议收录论文创下历史新高,除了论文展示还有workshop和软件展示.Facebook的研究员也会在ACL 2017上展示他们的研究成果,他们究竟带来了什么,跟着雷锋网 AI科技评论往下看. Facebook目前主要针对对话.文本表示和机器翻译进行了一些卓有成效的研究,并将在ACL上展示这几个方向的内容. 他们在ACL 2017上被收录的论文有如下几篇: A Convolutional Encoder Mo

现场:ACL 2017 Day 0, 计算机语言学思想碰撞的浪潮开启 | ACL 2017

作为计算机语言学和自然语言处理最顶尖的会议之一,每年的ACL大会都吸引了许多学者投稿与参与.今年的ACL 2017将于2017年7月30日至8月4日在加拿大温哥华举行,大会的举办可谓为计算机语言学带来了新一波思想碰撞的浪潮.雷锋网也已经赶往会议现场,为读者带来最新的会议报道. 根据大会日程,ACL 2017主会议(Main Conference)举行时间为7月31日至8月2日,今天则是预热的Totorial环节,包含六个Totorial以及一个Workshop(关于Totorial及Worksh

黑客对决,七大看点,宅客送你 GeekPwn 门票!

在美剧<西部世界>中,人类建造了极具科幻又仿真的三大主题公园,用大量仿真机器人为人类游客提供各种服务.悲催的是,当游客们正陶醉在神奇的乐园中时,机器人却在不知不觉中逐渐有了记忆.感情等意识,甚至逐渐威胁并控制人类,一场由人工智能觉醒与人类智慧的"战役"由此开始. 机器人真的会肆无忌惮地"造反"吗?人类能躲过人工智能的威胁吗?到底谁会大胆站出来,保卫人类安全? 国际安全极客大赛(GeekPwn 2017),将于10月24日和11月13日,分别在上海喜玛拉雅

百度成北大清华最大企业雇主一年内200人加盟

北大.清华毕业生最希望加入哪家公司?五年前,问题的答案或是宝洁.微软(微博)这样的跨国巨头,但现在,答案变成了一家中国企业--百度.调查显示,2011年至今,北大.清华两所高校参加就业的毕业生中,选择加盟百度的人数高达近200人,远超于其他企业.这也意味着,百度已成北大清华这两所国内顶级高校的毕业生们最青睐的企业. 百度CEO李彦宏2011年南开大学校园演讲时,曾用四句话来总结百度的人才观:"找最优秀的人.给最自由的空间.看最后的结果.让优秀的人才脱颖而出".据介绍,百度每年都会从斯坦