BLEU | bitJoy

今天要介绍的内容比较多，但都是概述性的内容，主要了解自然语言生成领域的进展。

Section 1: Recap LMs and decoding algorithms

之前已经讲过什么是语言模型，语言模型就是给定句子中的一部分词，要求预测下一个词是什么。形式化表述就是预测$P(y_t|y_1,...,y_{t-1})$，其中的$y_1,...,y_{t-1}$就是目前已知的词，$y_t$就是要预测的下一个词。

条件语言模型是指除了已知$y_1,...,y_{t-1}$，还给定了$x$，这个$x$就是提供给语言模型的额外的信息。比如机器翻译的$x$就是源语言的句子信息；自动摘要的$x$就是输入的长文；对话系统的$x$就是历史对话内容等。

需要提醒的是，语言模型在训练阶段，输入Decoder的是正确的词，这种方法被称为Teacher Forcing，即不论上一步的输出是什么，都强制给这一步输入正确的词。而如果在测试阶段，Decoder的输入是上一步的输出。

Continue reading →

今天介绍另一个NLP任务——机器翻译，以及神经网络机器翻译模型seq2seq和一个改进技巧attention。

机器翻译最早可追溯至1950s，由于冷战的需要，美国开始研制由俄语到英语的翻译机器。当时的机器翻译很简单，就是自动从词典中把对应的词逐个翻译出来。

后来在1990s~2010s，统计机器翻译（Statistical Machine Translation, SMT）大行其道。假设源语言是法语$x$，目标语言是英语$y$，机器翻译的目标就是寻找$y$，使得$P(y|x)$最大，也就是下图的公式。进一步，通过贝叶斯公式可拆分成两个概率的乘积：其中$P(y)$就是之前介绍过的语言模型，最简单的可以用n-gram的方法；$P(x|y)$是由目标语言到源语言的翻译模型。为什么要把$P(y|x)$的求解变成$P(x|y)*P(y)$？逐个击破的意思，$P(x|y)$专注于翻译模型，翻译好局部的短语或者单词；而$P(y)$就是之前学习的语言模型，用来学习整个句子$y$的概率，专注于翻译出来的句子从整体上看起来更加通顺、符合语法与逻辑。所以问题就转化为怎样求解$P(x|y)$。

Continue reading →

bitJoy

A little bit of 0/1 joy

Tag Archives: BLEU

CS224N（2.26）Natural Language Generation

CS224N（1.31）Translation, Seq2Seq, Attention