6.3 深度学习的基础模型
深度学习(Deep Learning)源于人工神经网络(简称神经网络),其初衷是从仿生学角度建立模拟人脑学习的神经元网络结构,从而模仿人脑的机制来解释数据。早期的神经网络是浅层神经网络,通常仅含有单个输入层、少量隐藏层和单个输出层,输入通常是人工提取的特征。其连接方式是,从输入层开始到输出层结束,中间各层接收前一级输入,并输入到下一级,整个网络中无反馈,因而又称为前馈网络。而深度学习的模型是深度神经网络,较之浅层神经网络,它具有较多的隐藏层和复杂的连接方式,因而能够自动的学习特征。
近年来,随着计算资源的不断扩充和机器学习研究的不断深入,深度学习取得了长足的发展,大大推进了人工智能的代表性应用(如图像处理、语音处理和自然语言处理等)的进步,从而激起了学术界和产业界的研究热情和浓厚兴趣,得到了广泛关注。围绕知识图谱的自动创建,当前的相关研究主要聚焦于如何利用基于深度神经网络的自然语言模型对大量文本语料进行分析,并从中抽取知识。从模型结构的角度,当前常用的自然语言模型可归纳为四种,即基于 N-Gram 的前馈神经网络模型、基于递归神经网络的模型、基于卷积神经网络的模型和基于循环神经网络的模型。
基于 N-Gram 的前馈神经网络模型通过学习自然语言的 N-Gram 概率模型,以支持词的分布式特征表示求取等任务。早期的代表性模型如 Bengio等人的神经概率语言模型(NNLM) [8] ,它基于三层的前馈神经网络利用自然语言语句中的前 N-1 个词来预测后第 N 个词,取得了优于当时的 tri-gram模型的结果。其后续拓展模型为基于对数双线性的层级神经网络模型(HLBL) [9] 。在此思路的基础上,Mikolov et al [10] 提出了 CBOW 和 Skip-Gram 模型,前者采用等量的上文和下文信息来预测中间位置的词,后者则采用中间位置的词来预测等量的上文和下文中的词。该方法学习出的 word2vec 词向量表示得到了学术界和产业界的广泛认可。在此基础上,Mikolov 将词序列所在的段落添加为输入,学习出句子或段落的语义表示(paragraph vector) [11] 。相较于其他的深度神经网络模型,基于 N-Gram 的前馈神经网络模型所包含的网络层次较少,能够运用自然语言的上下文共现信息较快完成词句的表示学习。
基于递归神经网络(RNNs, Recursive NeuralNetworks)的模型由 Socher 在 2010 年提出[12] ,其基本理念是将自然语言相对应的层次化树型结构作为对语言建模的主要依据。递归神经网络一般以自然语言语句语法解析所得的树形结构为基础,以叶节点的表示作为输入,通过自底向上的递归运算,计算出非叶子节点的表示。最早用于词句表示学习的递归神经网络是基于二叉语法树的递归自动编码机[13] ,其后陆续拓展出基于矩阵和向量联合表示的模型[14] 、基于张量的模型 [15]和基于依存树的递归神经网络模型[16] 等。该类模型在自然语言转述检测、情感分析、关系分类、图像文本的双向匹配等任务中取得了良好的结果。
基 于 卷 积 神 经 网 络(CNNs,ConvolutionalNeural Networks)的模型,源于用于图像处理的卷积神经网络,经典模型是由 LeCun et al [17] 在上世纪 90 年代提出的 LeNet-5,曾成功应用于手写数字识别。Collobert et al [18] 最早将卷积神经网络应用于词的表示学习和基于词序列的自然语言处理任务。以此为基础,多项研究工作将卷积神经网络应用于基于单个句子和多个句子的自然语言处理任务[19-20] 。基于卷积神经网络的词句表示学习通常不采用语法解析信息,而直接对句子对应的词向量矩阵进行类似于图像处理的卷积操作,以提取局部上下文的特征表示。该模型在情感分析、转述检测、回复匹配等任务中均有良好的表现。
基 于 循 环 神 经 网 络(RNNs,RecurrentNeural Networks)的模型,基于瑞士人工智能实验室 Schmidhuber [21] 在上世纪 80 年代提出的循环神经网络构建,通过带时序参数的网络结构来记录序列数据的上下文信息。循环神经网络具有一组隐藏节点,用于表示系统某一时刻的状态,而系统下一时刻的状态,根据下一时刻的输入和上一时刻的状态决定。由于在反向传播的过程中,梯度传播的线性过程在依赖路径太长的境况下,会出现梯度趋于 0 的问题,因此人们提出在神经元中添加存储单元和门控单元形成基于 LSTM(Long Short TermMemory) [22] 和 GRU(Gated Recurrent Unit) [23]的循环神经网络,以应对上述问题。在自然语言处理中,基于循环神经网络的模型常被应用于单序列任务,如词性标注等。近年来,它被应用于从序列到序列的转换任务中[24] ,而且结合近年来提出的焦点(Attention)机制[25] ,基于循环神经网络的模型在机器翻译、自动对话等领域都取得了令人瞩目的应用成果。
在上述四种网络模型的基础上,研究者还尝试结合不同模型的特点,提出混合模型来提升实验结果。Mou et al [26] 将卷积和递归神经网络结合,提出了树卷积神经网络模型,应用于情感分析、程序分类等任务。Zhang et al [27] 基于自顶向下生成依存树的思路,结合树形结构中的依存路径,提出四种基于 LSTM 的局部循环神经网络来学习概率语言模型,并在多个语言模型评测集上获得了良好的效果。