《中国人工智能学会通讯》——2.27 利用深度学习改进统计机器翻译

2.27 利用深度学习改进统计机器翻译

利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型[1] 、翻译模型 [2] 、调序模型 [3] 、词语对齐[4]等。

深度学习能够帮助机器翻译缓解数据稀疏问题。以语言模型为例。语言模型能够量化译文的流利度,对译文的质量产生直接的重要影响,是机器翻译中的核心模块。传统的语言模型采用 n-gram方法,通过极大似然估计训练模型参数。由于这种方法采用离散表示(即每个词都是独立的符号),极大似然估计面临着严重的数据稀疏问题:大多数n-gram 在语料库上只出现一次,无法准确估计模型参数。因此,传统方法不得不使用平滑和回退等策略来缓解数据稀疏问题。但即使采用平滑和回退策略,统计机器翻译系统还是因为数据过于稀疏而无法捕获更多的历史信息,通常仅能使用 4-gram或者 5-gram 语言模型。

深度学习著名学者、加拿大蒙特利尔大学Yoshua Bengio 教授在 2003 年率先提出基于神经网络的语言模型[5] ,通过分布式表示(即每个词都是连续、稠密的实数向量)有效缓解了数据稀疏问题。美国 BBN 公司的 Jacob Devlin 等人于 2014年进一步提出神经网络联合模型(Neural NetworkJoint Models) [1] 。传统的语言模型往往只考虑目标语言端的前 n-1 个词。以图 1 为例,假设当前词是“the”,一个 4-gram 语言模型只考虑之前的三个词:“get”、“will”和“i”。Jacob Devlin 等人认为,不仅仅是目标语言端的历史信息对于决定当前词十分重要,源语言端的相关部分也起着关键作用。因此,其神经网络联合模型额外考虑五个源语言词,即“就”、“取”、“钱”、“给”和“了”。由于使用分布式表示能够缓解数据稀疏问题,神经网络联合模型能够使用丰富的上下文信息(图 1 共使用了 8 个词作为历史信息),从而相对于传统的统计机器翻译方法获得了显著的提升(BLEU 值提高约 6 个百分点),因此获得了自然语言处理领域重要国际会议 ACL 2014 的最佳论文奖。

对机器翻译而言,使用神经网络的另一个优点是能够解决特征难以设计的问题。以调序模型为例。基于反向转录文法的调序模型[6]是基于短语的统计机器翻译的重要调序方法之一,其基本思想是将调序视作二元分类问题:将两个相邻源语言词串的译文(1)顺序拼接或(2)逆序拼接。传统方法通常使用最大熵分类器,但是如何设计能够捕获调序规律的特征成为难点。由于词串的长度往往非常长,如何从众多的词语集合中选出能够对调序决策起到关键作用的词语是非常困难的。因此,基于反向转录文法的调序模型不得不仅基于词串的边界词设计特征[6] ,无法充分利用整个词串的信息。利用神经网络能够缓解特征设计的问题,首先利用递归自动编码器(Recursive Autoencoders)生成词串的分布式表示;然后基于四个词串的分布式表示建立神经网络分类器[3] 。因此,基于神经网络的调序模型不需要人工设计特征就能够利用整个词串的信息,显著提高了调序分类准确率和翻译质量。实际上,深度学习不仅能够为机器翻译生成新的特征[1-2] ,还能够将现有的特征集合转化生成新的特征集合[7] ,显著提升了翻译模型的表达能力。

然而,尽管利用深度学习改进统计机器翻译取得了显著的效果,但仍然面临以下难题。

● 线性不可分:整体框架仍是线性模型,高维数据线性不可分的情况依然存在。虽然可以在保持特征不变的情况下将线性模型替换为非线性模型[8] ,但目前尚未获得大幅度的提升。

● 非局部特征:通过深度学习引入的新特征往往是非局部的,导致无法设计高效的动态规划算法,从而不得不采用在后处理阶段进行超图重排序等近似技术[9] 。

能不能直接利用神经网络进行机器翻译呢?

时间: 2024-08-01 08:27:57

《中国人工智能学会通讯》——2.27 利用深度学习改进统计机器翻译的相关文章

《中国人工智能学会通讯》——6.3 深度学习的基础模型

6.3 深度学习的基础模型 深度学习(Deep Learning)源于人工神经网络(简称神经网络),其初衷是从仿生学角度建立模拟人脑学习的神经元网络结构,从而模仿人脑的机制来解释数据.早期的神经网络是浅层神经网络,通常仅含有单个输入层.少量隐藏层和单个输出层,输入通常是人工提取的特征.其连接方式是,从输入层开始到输出层结束,中间各层接收前一级输入,并输入到下一级,整个网络中无反馈,因而又称为前馈网络.而深度学习的模型是深度神经网络,较之浅层神经网络,它具有较多的隐藏层和复杂的连接方式,因而能够自

《中国人工智能学会通讯》——7.13 深度学习与分布式表示学习概览

7.13 深度学习与分布式表示学习概览 深度学习的概念源于人工神经网络的研究.深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的有效表示,而这种使用相对较短.稠密的向量表示叫做分布式特征表示(也可以称为嵌入式表示).本部分主要对于目前使用较广的一些学习算法进行一个简单的回顾. 首先介绍一些浅层的分布式表示模型.目前在文本领域,浅层分布式表示模型得到了广泛的使用,例如 word2vec.GloVec 等[6] .与传统词袋模型对比,词嵌入模型可以将词或者其他信息单元(例如短

《中国人工智能学会通讯》——1.31 深度学习 在自然语言处理研究上的进展

1.31 深度学习 在自然语言处理研究上的进展 近年来,深度学习在人工智能的多个子领域都取得了显著的进展.在自然语言处理领域,虽然深度学习方法也收到越来越多的关注,在很多任务上也取得了一定效果,但是并没有其他领域那么显著.传统的主流自然语言处理方法是基于统计机器学习的方法,所使用的特征大多数是基于 onehot 向量表示的各种组合特征.这个特征表示方式会导致特征空间非常大,但也带来一个优点.就是在非常高维的特征空间中,很多任务上都是近似线性可分的.因此,在很多任务上,使用线性分类器就是可以取得比

《中国人工智能学会通讯》——1.40 深度学习

1.40 深度学习 罗曼·扬波利斯基是路易斯维尔大学网络安全实验室主任.他认为,2016 年,我们将看到卷积神经网络(深度学习)领域的迅速发展,超级计算机的使用将使这个领域成为 2016 年人工智能发展的重点. 浅层学习是机器学习的第一次浪潮,主要是计算机系统从大量训练样本中学习统计规律,对未知事件做预测,实际上这种人工神经网络只是一种浅层模型. 深度学习是指通过构建多层的机器学习模型和海量训练数据来学习更有用的特征,目的在于建立.模拟人脑进行学习的神经网络,模仿人脑来解释数据,深度学习是无监督

《中国人工智能学会通讯》——7.11 深度学习在推荐算法上的应用进展

7.11 深度学习在推荐算法上的应用进展 最近几年是深度学习发展的黄金时间,其在多个领域取得了重要进展,包括图像领域.语音领域.文本领域等.深度学习为科研工作者提供了一种非常有效的技术途径,其本质上是对数据特征进行深层次的抽象挖掘,通过大规模数据来学习有效的特征表示以及复杂映射机制,从而建立有效的数据模型.从方法上来说,深度学习具有的优点本质上是领域无关的.因此,在可预见的未来,深度学习将会作为一种较为通用的数据建模方法,对于多个潜在领域的应用产生重要影响. 在信息大数据时代,用户的个性化需求不

《中国人工智能学会通讯》——2.18 深度学习算法的计算与访存特征

2.18 深度学习算法的计算与访存特征 图 1 是一个用于手写识别的深度卷积神经元网络 LeNet5 [6] ,以此为例讨论深度学习算法的计算特征.在 LeNet5 中,包括了卷积层 C1.C3.C5 和Subsampling 层 S2.S4,以及全连接层 F6.其中卷积层是最为费时的操作. 对 于 有 R 个 输 入 feature map 和 Q 个 输 出feature map 的卷积层,假设 feature map 的大小为 M×N,卷积核的大小为 K×L,则该卷积层的代码大致可以表示为

《中国人工智能学会通讯》——11.30 深度迁移学习

11.30 深度迁移学习 随着互联网技术在各个领域的广泛应用,特别是社会网络,以及移动计算的崛起,文本.图像.视频等非结构化数据呈现出指数式增长,迫切需要有效的数据分析方法和高效的数据处理算法.机器学习作为大数据智能化分析的主要技术基石,在理论和实践两方面都取得了飞速进展,特别是在深度学习[1]上取得了革命性突破. 虽然人们已经能够通过信息系统.社会媒体.移动计算.工业互联网等渠道收集到大规模.多模态.高维度.快速变化的大数据,但大数据中高价值的标记数据还是比较稀缺的.从监督机器学习的视角来看,

《中国人工智能学会通讯》——11.77 特征学习模型在天文光谱识别中的 应用

11.77 特征学习模型在天文光谱识别中的 应用 随着新一代巡天观测.时域观测等天文项目的推进,当前的天文数据以"雪崩"之势增长[18] ,由此导致了天文数据自动挖掘方法研究的必要性和迫切性.国际上,近年来大规模图像巡天和大样本光谱巡天方面已经取得了长足的进展[19] ,特别是一系列光谱巡天计划的成功实施,使人们获得了空前丰富的恒星光谱资料,推动了天文学各个分支的蓬勃发展.恒星光谱,无论是连续谱还是线谱,差异极大.恒星光谱主要取决于恒星的物理性质和化学组成.因此,恒星光谱类型的差异反映

《中国人工智能学会通讯》——1.30 演化学习调研

1.30 演化学习调研 演化学习是基于演化算法来处理机器学习面临的优化问题的研究方向.演化算法源于 20 世纪 60 年代,随着计算设备的出现,研究者设计了在计算机中模拟生物进化过程的算法,包括遗传算法.演化规划算法.演化策略算法等,并发现这样的算法具有一定的优化能力,并且对优化目标函数的限制很少,可以用于目标函数不可导.不连续,甚至写不出目标函数的情况. 随着时间的发展,这些最初的算法以及之后设计的变种现在可以统称为演化算法(Evolutionaryalgorithms),因为这些算法有相近的