在各种类型的对话系统中,私人助理是一种非常重要的类型。它是通过自然语言对话的方式,完成用户发出的指令类任务,或者回答一些常识知识,例如,天气查询、机票预定、知识问答等。有很多著名的科技公司涉猎这一类型的对话系统,如苹果Siri,微软小娜,谷歌助理(Google Assistant),百度度秘,讯飞AIUI等。
一个对话系统通常有三个关键模块,即语言理解(Language Understanding)、对话管理(Dialogue Management)和语言生成(Language Generation)。其中语言理解技术指的是将用户面向机器说出的自然语言转换为语义表示[1],随后对话管理模块根据语义表示、语义上下文、用户元信息等,找到合适的执行动作,再根据具体的动作生成一句自然语言来回复用户[2]。
语义槽填充任务的主要目标是在已知特定领域或意图的语义框架(semantic frame)的前提下,从输入语句中抽取出该语义框架中预先定义好的语义槽的值。语义槽填充任务可以转化为序列标注任务,即使用经典的IOB2标记法。用此标注法,“查一下明天北京到上海的机票”,标注结果为:
Yao等人[19]和Mensil等人[20]最早将循环神经网络(RNN)应用于语义槽填充的任务上。之后双方总结了一篇使用RNN进行语言理解任务中语义槽填充的文章[2]。文章将语义槽填充视为序列标注任务,对不同种类RNN、双向RNN、RNN-CRF等网络结构的表现做了详细实验,结果表明,相对于CRF的基线方法,这些模型结构能够获得更好的结果。Yao等人使用了LSTM网络及相关变种[21],还有学者使用了CNN网络[22~24],Chen等人[25, 26]使用了Encoder-Decoder的框架进行语义槽标签标注,并引入了注意力机制。
一些工作考虑引入外部知识来提升模型性能。文献[31, 32]等引入了Freebase3或者Wikipedia等外部知识来提升系统的性能。Chen 等人[33]在Encoder-Decoder框架下,引入依存句法分析、语义依存分析等先验知识在数据集较小的情况下能够显著提升模型效果。
任务型对话语言理解的研究工作中,使用最广泛的数据集是航空旅游信息系统 (Airline Travel Information System, ATIS)的数据[34]。该数据集是采集自真实预订飞机票录音,再经过转写后的文本。
ATIS在语言理解任务上使用最广泛的版本4是来自于He等人[10]和Raymond等人[14]的工作,其中训练数据共4978句,来自ATIS25和ATIS36数据集;测试数据包含893句,来自ATIS3 NOV93和DEC94数据集。其中包含了127种语义槽标签和18种意图。
在一些研究工作中,使用了非公开的数据集。例如Guo等人的工作中,使用了微软Cortana英文对话数据集[27]。Yao等人使用了微软必应查询(Bing Query)理解英文数据集[35]。
三个平台都提供了基本的语言理解功能,基本上可使开发者便捷地开发出一个人机对话系统。 ■
1 语义槽相当于意图中所涉及的关键信息,包含语义槽名称和语义槽值。语义槽名称如“出发地”,语义槽值为对应的具体实体内容,如“北京”。语义解析后,返回语义槽名称和语义槽值。
2 IOB指的是一个词是某一语义槽的开始(begin)、延续(inside)或者非语义槽(outside)。
3 Freebase是一个类似维基百科(Wikipedia)的创作共享类网站,所有内容都由用户添加,采用创意共用许可证,可以自由引用。两者之间最大的不同在于,Freebase中的条目都采用结构化数据的形式。
4 https://www.dropbox.com/s/3lxl9jsbw0j7h8a/atis.pkl?dl=0
5 https://catalog.ldc.upenn.edu/LDC93S5
6 https://catalog.ldc.upenn.edu/LDC94S19
