Tag Archives: 机器翻译

CS224N（3.14）Future of NLP + Deep Learning

今天是该课程的最后一节课，介绍了使用未标注数据集进行NLP学习的方法，以及谈了谈NLP未来的发展方向。下面主要介绍使用未标注数据集进行NLP学习的方法。

我们知道，在机器翻译领域，特别缺少标注好的语料集。目前世界上有上千种语言，但用得最多的只有十几种。对于那些使用人数很少的语言，它们和其他语言之间标注好的翻译句子就更少了。如何使用少量标注集，甚至不用标注集，就能实现机器翻译功能，是NLP领域一个很有前景的发展方向。

之前的很多工作使用pre-training来提高机器翻译模型的性能。具体方法是，先在源语言和目标语言的语料集上分别训练一个语言模型，这是无监督的，这个语言模型可以学到不同词的含义。然后在翻译模型中，用源语言的语言模型初始化Encoder权重，用目标语言的语言模型初始化Decoder权重。使用pre-training的模型相比于不使用pre-training的模型的BLEU大概有2分的提高。

Pre-training的问题是，由于预训练是在两种语言上独立进行的，两种语言在预训练期间没有交互过程。

Continue reading →

CS224N（2.26）Natural Language Generation

CS224N（2.21）Transformers and Self-Attention For Generative Models

4 Replies

今天介绍大名鼎鼎的Transformer，它于2017年出自谷歌的论文《Attention Is All You Need》（https://arxiv.org/pdf/1706.03762.pdf），用Attention实现机器翻译模型，并取得了新的SOTA性能。

传统的机器翻译模型一般是结合RNN和Attention，可以看我之前的博客介绍：CS224N（1.31）Translation, Seq2Seq, Attention。虽然RNN+Attention的组合取得了不错的效果，但依然存在一些问题。由于RNN是序列依赖的模型，难以并行化，训练时间较长；且当句子很长时由于梯度消失难以捕捉长距离依赖关系。虽然相继推出的LSTM和GRU能一定程度上缓解梯度消失的问题，但这个问题依然存在。而且LSTM和GRU难以解释，我们根本不知道当前timestep依赖远的词多一点还是近的词多一点。

Transformer的思想很激进，它完全抛弃了RNN，只保留Attention，从其论文标题可见一斑。RNN无法并行化的根本原因是它的正向和反向传播是沿着句子方向（即水平方向），要想实现并行化，肯定不能再走水平方向了。于是，Transformer完全抛弃水平方向的RNN，而是在垂直方向上不断叠加Attention。由于每一层的Attention计算只和其前一层的Attention输出有关，所以当前层的所有词的Attention可以并行计算，互不干扰，这就使得Transformer可以利用GPU进行并行训练。

Continue reading →

CS224N（2.14）Subword Models

CS224N（1.31）Translation, Seq2Seq, Attention

7 Replies

今天介绍另一个NLP任务——机器翻译，以及神经网络机器翻译模型seq2seq和一个改进技巧attention。

机器翻译最早可追溯至1950s，由于冷战的需要，美国开始研制由俄语到英语的翻译机器。当时的机器翻译很简单，就是自动从词典中把对应的词逐个翻译出来。

后来在1990s~2010s，统计机器翻译（Statistical Machine Translation, SMT）大行其道。假设源语言是法语$x$，目标语言是英语$y$，机器翻译的目标就是寻找$y$，使得$P(y|x)$最大，也就是下图的公式。进一步，通过贝叶斯公式可拆分成两个概率的乘积：其中$P(y)$就是之前介绍过的语言模型，最简单的可以用n-gram的方法；$P(x|y)$是由目标语言到源语言的翻译模型。为什么要把$P(y|x)$的求解变成$P(x|y)*P(y)$？逐个击破的意思，$P(x|y)$专注于翻译模型，翻译好局部的短语或者单词；而$P(y)$就是之前学习的语言模型，用来学习整个句子$y$的概率，专注于翻译出来的句子从整体上看起来更加通顺、符合语法与逻辑。所以问题就转化为怎样求解$P(x|y)$。

Continue reading →

bitJoy

A little bit of 0/1 joy

Tag Archives: 机器翻译

CS224N（3.14）Future of NLP + Deep Learning

CS224N（2.26）Natural Language Generation

CS224N（2.21）Transformers and Self-Attention For Generative Models

CS224N（2.14）Subword Models

CS224N（1.31）Translation, Seq2Seq, Attention