作为自然语言处理与计算语言学领域顶级国际学术会议,第55届国际计算语言学学会年会 (The 55th Annual Meeting of the Association for Computational Linguistics, ACL 2017)吸引了来自学术界与产业界的1800多人参会,会议规模远超会议组织者的预期。人们不禁赞叹,自然语言处理学者们最好的时代来临了。
从大会论文看,机器翻译和机器学习是最受关注的两大主题,这两个领域备受关注与近年深度学习在自然语言处理中的蓬勃发展息息相关。机器翻译领域最受关注的主题又是当前最热门的神经机器翻译;机器学习领域则聚焦在如何将目前最先进的深度学习技术应用在自然语言处理的各项任务中。此外,交叉领域研究的发展趋势也值得人们关注。
特邀报告
特邀报告是组织者颇费心思安排的。华盛顿大学的诺亚·史密斯(Noah Smith)介绍了表示学习在自然语言处理中的应用,论证了先验语言知识对基于表示学习的计算语言学模型的帮助。爱丁堡大学的米雷拉·拉帕塔(Mirella Lapata)介绍了如何利用最新深度学习技术实现对不同模态数据(包括语言、视频、源码等)的通用表示及其互相翻译。可以看到,两个特邀报告都围绕深度学习技术展开,特别是拉帕塔的报告还涉及多个交叉领域,非常契合今年自然语言处理的研究热点。
会议论文
“信息抽取与检索、问答系统、文档分析”大类的投稿数量最多,主要原因是其中包含了若干个重要主题。机器翻译和机器学习是紧随其后的两大主题,投稿比例分别为8.2%和7.1%。图1展示了本次会议论文的投稿情况(图片来自ACL 2017 PC Blog)。
今年会议值得关注的趋势是交叉领域研究。本届会议安排了两场与计算机视觉有关的论文展示。杰出论文和最佳资源论文,均有与计算机视觉相关的论文获奖。
图1 ACL 2017投稿的各领域占比
杰出论文与最佳论文
为了让更多的优秀研究成果获得关注,从ACL 2016开始,大会开始评选杰出论文(Outstanding Papers)。本次会议经过审稿人评阅、领域主席推荐以及程序委员会主席平衡,最终决定了22篇杰出论文。国内学者大放异彩,共有5篇论文入选杰出论文,分别来自清华大学孙茂松团队、北京大学王厚峰团队和万小军团队、复旦大学黄萱菁团队以及中科院自动化研究所包红云团队。大会专门设置评选委员会,从这些杰出论文中评选出大会最佳论文,见表1。
表1 最佳论文
今年的最佳长文、最佳短文都颁发给了研究计算语言学经典领域的论文,而最佳长文创造性地使用了深度学习技术,引人关注。今年最佳演示论文奖和提名奖分别授予诗歌生成系统和神经机器翻译系统,这两个系统的基础架构都是端到端的神经网络系统。这些表明,深度学习技术在自然语言处理各领域展现出极佳效果,对自然语言处理的影响日益深远。
终身成就奖
今年终身成就奖颁发给了哈佛大学的芭芭拉·格罗斯(Barbara J. Grosz)教授。在自然语言处理领域,她开发了最早的人机对话系统,建立了通过计算建模进行篇章分析的研究方向。在多智能体系统领域,她为协作型多智能系统和人机交互系统提出了基础研究框架。此外,格罗斯教授在跨学科机构的建立和领导方面也做出了突出贡献。她还致力于改善女性在科学研究领域的地位,获得广泛认可。
自然语言处理领域的女性学者(WiNLP)
为了提升女性和其他少数群体在自然语言处理领域的地位,本次会议首次组织了WiNLP研讨会。
近20年来,女性在ACL主会上的参与度一直保持在20%左右。而在ACL上发表论文(两篇以上)的女性比例,占比逐年下降。为此,ACL决定参照计算机视觉(CV)和机器学习(ML)领域开设女性研究会的成功范例,从ACL 2017开始组织WiNLP研讨会,鼓励自然语言处理领域女性学者的交流与发展。
WiNLP研讨会由特邀报告、口头报告、海报展示以及辅导(mentor)等环节组成。其中辅导环节最有特色。辅导环节包括午餐圆桌辅导和一对一辅导。午餐圆桌辅导由10个圆桌主题讨论和5个圆桌招聘讨论组成。10个圆桌主题讨论中,每个圆桌讨论的特定主题不一样,有工作和生活平衡、工业界或学术界的选择、ACL会议非英语母语者的经历交流等,每个圆桌配备两名导师,与大家进行经验分享。5个圆桌招聘辅导,邀请了谷歌、IBM、Facebook等企业参加进行招聘讨论。一对一辅导环节则安排参加WiNLP研讨会的女性学者与导师进行一对一分享交流,探讨工作、家庭、生活中遇到的问题与困惑。
午餐圆桌辅导环节
企业赞助
各种会议都会十分关注企业赞助问题。在人工智能的热潮下,ACL 2017也吸引了大量企业的关注。不但能在发表论文的单位中看到很多企业的身影,在赞助商名单中,企业数量也创历史新高。2016年的会议有16家赞助,今年增加到34家。
除了成为赞助商,这些公司也纷纷设置展台,组织晚宴交流活动等,以期取得学术界的关注,吸引相关人才。中国互联网科技公司在本次会议赞助商中也扮演了重要角色。除了百度、阿里巴巴、腾讯之外,搜狗搜索、华为、视源股份、今日头条也进入了赞助行列。
双盲审机制与arXiv
ACL论文审稿一直采取双盲审机制,即在审稿过程中,审稿人和作者均采取匿名形式,互相不知道对方的身份,以便最大程度地减少审稿过程中的不公平现象。从20世纪50年代起,这种方式开始在社会学期刊流行,但当时在自然科学和工程学领域并不普遍。与此相对应的单盲审稿机制,是审稿人知道作者信息,而作者不知道审稿人信息的评审机制。在ACL 2017开幕式上,ACL主席Joakim Nivre在报告中,引用了网络搜索与数据挖掘国际会议(WSDM)关于单盲、双盲审稿机制的调查报告结果。该结果发现,单盲机制对于著名作者、顶尖大学和公司有巨大的加成效应。
近来,越来越多的学者选择先在预印本网站arXiv上发布最新研究成果的论文,保护成果的发明权。arXiv有许多不容忽视的优点:(1)速度。由于arXiv发布论文无须审稿,研究成果可以快速直接提交到arXiv上供学术界参考。而像ACL这样的学术会议,论文从投稿、审阅到正式发表至少需要4~6个月时间。arXiv从客观上极大地加速了学术信息的交流。但由于缺少同行评议,arXiv论文也存在质量良莠不齐的情况。(2)开放。任何人经过简单审核都可以在arXiv发布论文,所有人都能够阅读和讨论这些论文,同时,论文也能够通过版本控制进行修改。但是在arXiv上先行发布论文的流行,对ACL等会议的双盲审机制也造成了明显的影响。审稿人可以很容易地通过搜索引擎了解到投稿作者的信息,从而打破双盲审机制中不了解作者信息的情况。
双盲审稿机制与论文预印本网站arXiv成为本届ACL程序委员会及参会人员热烈讨论的话题。针对该问题,本次会议组织者抽样统计了623个审稿意见,其中有134个审稿意见反映,审稿的论文可以在arXiv上找到对应版本。还有审稿人反映,在双盲机制下容忍arXiv,就像“房间里的大象”(Elephant in the room),每个人都能看得到这个庞然大物,但还要假装忽视它。为了讨论双盲审机制与arXiv的冲突问题,本次大会的工作会议(Business Meeting)邀请了三位资深学者发表对双盲审机制及arXiv的看法,包括约翰霍普金斯大学约翰·艾斯纳(Johns Eisner)教授(本届ACL最佳论文获得者)和斯坦福大学克里斯多夫·曼宁(Christopher Manning)教授。经过讨论,ACL最后明确了以下观点:(1)确实存在相当比例的学者使用arXiv;(2)双盲审机制对于论文质量非常重要,会一直沿用下去;(3)论文预览也将被允许,不过需要在论文提交时进行声明,并将对审稿人提出更加明确的审稿指南,以应对那些arXiv上的论文。
关于双盲审机制及arXiv问题的完整调研与研究报告可以通过以下网址获取:https://www.aclweb.org/portal/ sites/default/files/SurveyReport2017.pdf。
小结
在人工智能研究与应用风起云涌的今天,ACL 2017给自然语言处理研究领域的学者们带来了许多新的变化,也给学术共同体带来新的挑战。例如,研究方向过于热衷深度学习而导致缺少多样性,女性或其他少数群体研究者的比例严重偏低,预印本网站arXiv对双盲审机制带来的冲击,等等。我国正在热切拥抱这次人工智能浪潮,并有与美国并驾齐驱的架势。在热闹中,我们需要冷静下来,认真反思这些变化,慎重应对这些挑战,让我国的人工智能和自然语言处理的研究与应用朝着更加健康的方向走下去。 ■
所有评论仅代表网友意见