语言模型 | bitJoy

CS224N（2.26）Natural Language Generation

今天要介绍的内容比较多，但都是概述性的内容，主要了解自然语言生成领域的进展。 Section 1: Recap LMs and decoding algorithms 之前已经讲过什么是语言模型，语言模型就是给定句子中的一部分词，要求预测下一个词是什么。形式化表述就是预测$P(y_t|y_1,…,y_{t-1})$，其中的$y_1,…,y_{t-1}$就是目前已知的词，$y_t$就是要预测的下一个词。条件语言模型是指除了已知$y_1,…,y_{t-1}$，还给定了$x$，这个$x$就是提供给语言模型的额外的信息。比如机器翻译的$x$就是源语言的句子信息；自动摘要的$x$就是输入的长文；对话系统的$x$就是历史对话内容等。需要提醒的是，语言模型在训练阶段，输入Decoder的是正确的词，这种方法被称为Teacher Forcing，即不论上一步的输出是什么，都强制给这一步输入正确的词。而如果在测试阶段，Decoder的输入是上一步的输出。在机器翻译那期的博客中（CS224N（1.31）Translation, Seq2Seq, Attention），我们曾提到过在测试阶段，语言模型的Decoder有两种策略，一种是Greedy search，另一种是Beam search。Greedy search是指当前步的输入是上一步输出中概率最大的词。而Beam searh是指不但保留概率最大的词，还要保留概率在Top-k的词，那么在每一个时间步，都会有k条路径，最后选一条概率最大的路径。那么，Beam search中保留的Top-k到底取多少合适呢？当k=1时，Beam search退化为Greedy search，产生的句子可能会不够自然，甚至难以理解。增大k会使得产生的句子的全局概率更大，读起来会更通顺一些。但是k的增大也会带来一些问题，比如：计算量增大；对于NMT任务，k的增大会导致翻译出来的句子更短，BLEU得分更低；对于对话系统，k的增大会导致产生的句子过于“安全”和“通用”，也就是和当前对话没有太大关系但又比较通顺的句子。比如下面右图的例子，k=1时，回答和对话有点关系，但句子语法有问题；k=6时，句子很同时，但感觉答非所问。事实上，除了Greedy search和Beam search，还有其他的decoding方法。下面是两种基于采样的decoding方法。 Pure sampling：每个时间步t，根据softmax输出的概率分布进行采样，来决定t时刻最终输出的词。Top-n sampling：只在概率top-n的词中采样，相当于对Pure sampling的概率分布进行truncate。两种方法都是单路径的，不像Beam search那样保留多条路径。由于两种方法都是通过采样决定输出，属于随机算法，所以每次运行算法输出都不一样，可增加句子的多样性，比较适合于对话系统。还有一种可以改变语言模型输出概率的方法，就是Softmax temperature，带温度的Softmax，如下图所示。当t越大，分布变得越扁平，削弱了大和小的差别；t越小，则分布变得越尖，大的越大，小的越小。配合不同的decoding算法，可以控制产生句子的流畅度、平庸度、或者新奇度等。以下是语言模型的decoding算法小结。 Section 2: NLG tasks and neural approaches to them 自然语言生成是一类生成新文本的任务，包括机器翻译、自动摘要、对话系统（聊天机器人）、写作机器人、看图写作等。下面对其中几个任务进行简单的介绍。自动摘要的定义是，给定长文本x，要求生成短文本y，y能概括x的主要内容。自动摘要又分为x是单文档或多文档两类。（左图）自动摘要的一些数据集。Summarization：根据长文本写一个短句子作为长文本的摘要，就是常规意义的自动摘要。Sentence simplification：把复杂的句子转换为简单的句子，通常转换后的句子比源句子短，主要是换成更简单易懂的词，用简单的句子结构替代复杂的句子结构等，比如把新闻转换为儿童容易读懂的新闻。（右图）两种自动摘要的策略对比。Extractive summarization是指摘要的句子从原文中提取；Abstractive summarization是指使用语言模型生成新的句子作为摘要。前者类似于从原文中高亮某些关键句子，后者相当于用笔创作出新的句子作为摘要。前神经网络时代的自动摘要大多数是Extractive summarization，是一个pipeline，很复杂，可能会用到各种不同的算法。自动摘要的评价指标ROUGE。ROUGE和BLEU类似，都是基于模型输出和标准答案之间的n-gram的overlap，但是ROUGE不会对太短的摘要进行惩罚，而且ROUGE对不同的n-gram打分是分开的，而BLEU综合了n=1,2,3,4的n-gram结果。BLEU更关注precision，所以对太短（可能没有包含源句子的意思）的翻译有惩罚。ROUGE更关注recall，从其名称就可以看出来，在某个长度限制下，尽量包含长文的信息。） 2015年开始，基于神经网络的自动摘要方法蓬勃发展。基本思路是把自动摘要看成从长句子到短句子的翻译任务，使用seq2seq+attention的方法解决，效果还不错。下图是一些技巧，感兴趣的可以搜索原文阅读。对话系统的分类：assistive：个人助手型；co-operative：协作型；adversarial：对抗型，辩论？chit-chat：聊天机器人；therapy：心理咨询师？神经网络之前的做法是，事先设计一些问答模板，根据场景，给模板填充不同的内容。或者使用信息检索的方式，从问答库中检索问答。 2015年后，很多人开始用seq2seq+attention的方法做问答系统，但存在一些问题，如下。 ...

CS224N（2.19）Contextual Word Embeddings

今天介绍几种新的词向量学习方法，在此之前，建议大家看看我关于word2vec或GloVe等传统词向量的介绍：CS224N（1.8）Introduction and Word Vectors。传统词向量，比如word2vec，它在训练阶段学习到一个词的向量表示之后，在下游的各种NLP任务中，这个词向量不再变动了。也就是说传统词向量的特点是，对一个词只学习一个词向量，且在具体任务中固定不变。传统词向量有两个主要的不足：难以表达一词多义。一个词在不同的上下文语境中可能表示不同的含义，比如“苹果”在“苹果真好吃”和“苹果手机很好用”这两个句子中表示不同的含义，但word2vec学习到的“苹果”词向量只有一个，也就是说下游任务对于这两个句子用的是同一个词向量。虽然word2vec的词向量可能同时包含了这两个含义，但它把这两个含义糅合到一个向量中了，导致在“苹果真好吃”中可能引入了“苹果手机”的干扰因素，在“苹果手机很好用”中引入了“吃的苹果”的干扰因素。总之就是，word2vec学习到的词向量粒度较粗，向量固定不变，无法根据具体的上下文语境进行改变。难以表达不同的语法或语义信息。一个词，即使是同一个意思，在语法或语义上也可能充当不同的角色，比如“活动”这个词，既可以做名词、也可以做动词，既可以做主语、也可以做谓语等。但word2vec对一个词只给出一个词向量，无论这个词在句子中充当什么角色，词向量都是一样的。虽然word2vec训练时可能已经学到了一个词的不同语法或语义特征，但它把这些信息糅合到一个向量中了，也就是粒度较粗的问题。其实上述两点暴露出来的word2vec的不足，本质上是同样的两个原因：1. 词向量是静态的，无法根据上下文进行调整；2. 词向量表示只有一个向量，糅合了太多信息，粒度较粗。下图中的word type表示一个相同的词，比如“苹果”；word token表示同一个word type在不同上下文的具体实例，比如“苹果真好吃”和“苹果手机很好用”中的“苹果”就是两个不同的word token。word type和word token有点类似于类和实例的关系。 2018年艾伦人工智能研究所提出了ELMo: Embeddings from Language Models，即从语言模型中学习词向量的方法，它的原文标题为Deep contextualized word representations（https://www.aclweb.org/anthology/N18-1202.pdf），即深度的上下文词向量表示。ELMo很好地解决了上述传统词向量的两个不足，ELMo对一个词的表示由多个向量组成，并且每个向量的权重在具体的上下文中动态更新，由此不但粒度更细，而且能根据上下文动态调整一个词的最终词向量。使用ELMo词向量，作者在很多NLP任务上刷新了SOTA，在当年引起了很大的轰动。 ELMo有三个特点：学习的是word token的词向量，根据上面的定义，word token与具体的上下文有关，不再是静态的word type的词向量；使用很长的上下文进行学习，而不像word2vec一样使用较小的滑动窗口，所以ELMo能学到长距离词的依赖关系；使用双向的语言模型进行学习，并使用网络的所有隐藏层作为这个词的特征表示。下面介绍ELMo具体的训练过程，以下截图来自台湾大学李宏毅老师的教学视频。首先，既然word2vec使用滑动窗口只能学习到局部特征，那么ELMo就用RNN来建模长距离的依赖关系。如下图所示，ELMo使用双向语言模型bi-LM学习每个词的特征。我们知道，语言模型是给定一个句子前缀，预测下一个可能出现的词，也就是说常规的语言模型是只知道t时刻前的信息，不知道t时刻之后的信息，即通常都是单向的。而ELMo则使用了bi-LM，比如下图我们要学习“退了”这个词的特征，在前向网络中，模型学到了在给定上文的情况下，“退了”的隐藏层特征；在反向网络中，模型学到了在给定下文的情况下，“退了”的隐藏层特征。最后，ELMo把两个方向的隐藏层特征拼起来，作为bi-LM学到的“退了”这个词的特征表示。为了学到更多的特征，ELMo对双向RNN进行堆叠，每增加一层就能多学习到2个特征表示（一正一反，下图把这两个向量拼接起来作为一个整体向量h）。 ELMo文中只使用了两层的双向LSTM抽取特征，所以对一个词能抽取到4个特征表示，即下图中的h1和h2（每个h包含一正一反特征向量组合）。在使用ELMo词向量时，每个词的最终词向量是所有隐藏层特征向量h的加权求和，系数是α。这个系数是根据词在不同的上下文中学习得来的。ELMo文章分析发现，不同的NLP任务学到的系数不尽相同，比如在Coref和SQuAD任务中，第一层的系数更大。有可能ELMo在第一层学到的是词的句法特征，第二次学到的是更高级的语义特征。有点类似于CNN中在浅层学到点、线、转角，在高层学到轮廓等高级特征。 ELMo的形式化表示如下图所示。假设堆叠的bi-LSTM有L层，则每一层都能学到前向特征$\underset{h_{k,j}^{LM}}{\rightarrow}$和反向特征$\underset{h_{k,j}^{LM}}{\leftarrow}$，这两个组合起来就是$h_{k,j}^{LM}$（也就是上图的$h_i$）。下图的ELMo还有个$x_k^{LM}$，它是bi-LM的词向量输入，这相当于词最原始的输入向量，ELMo使用char-CNN抽取一个词的原始输入向量，和上一课提到的Subword model类似，这里不展开。下图j=0时的特征就是$x_k^{LM}$ 。所以，对于词$k$，ELMo得到的完整词向量是$R_k$，它其实是这个词的一系列特征向量的组合，它还不是这个词最终的词向量，因为最终的词向量要在具体的NLP任务中根据上下文来定。词$k$在某个任务task中的词向量$ELMo_k^{task}$如下图所示，它等于对所有层的特征向量的加权求和，权重$s_j^{task}$（即上图的α）根据当前任务动态学习得到。最终还会有一个参数$\gamma^{task}$，控制ELMo词向量对任务的贡献程度。不同层抽取的特征不一样，ELMo只使用了两层bi-LSTM，如果堆叠更多层的话，估计能学到更多有意思的特征。 ELMo词向量的使用方法。在下游的NLP任务中，既可以把ELMo词向量作为输入层特征，也可以将其拼接到隐藏层，反正都需要学习参数$s_j^{task}$和$\gamma^{task}$。性能方面，ELMo刷新了很多NLP任务的SOTA，大概能提高3个百分点。个人理解word2vec和ELMo的本质区别。其实两者在训练阶段都考虑了上下文，只不过word2vec使用的是滑动窗口，只能学习局部特征，而ELMo使用RNN，能学到长距离特征。word2vec学到embedding之后固定成一个向量了，在下游NLP任务中不再变动；而ELMo训练完之后得到这个词的多个特征向量（词的隐含特征表示，粒度更细），且在下游NLP任务中会根据上下文动态组合这些特征向量，得到在这一上下文中的词向量表示（针对性更强）。其实，仔细想想的话，这个本质区别也没有那么大，虽然word2vec训练到的词向量只有一个，且固定了，但词向量的维度如果够大的话，可以用不同维度来表示一词多义呀。而且用到下游NLP任务时，词向量不同维度的权重也可以不一样啊，不就相当于ELMo的不同$s_j^{task}$吗？虽然如此，可能还是不如ELMo的多个隐藏层向量，一方面是经过隐藏层的特征抽取，另一方面是毕竟ELMo出来的特征向量有2L+1个，仅维度上就比word2vec多很多，效果好是理所应当的。 ELMo的作者在2017年发过TagLM的工作，和ELMo类似，被称为Pre-ELMo，感兴趣的可以阅读原文（https://arxiv.org/abs/1705.00108）。ELMo是把语言模型的隐藏层抽取出来作为词的特征向量，2017年的CoVe词向量是把机器翻译过程中的隐藏层提取出来作为词的特征向量，但效果没ELMo好，感兴趣的可以阅读原文（https://arxiv.org/abs/1708.00107）。同样在2018年，OpenAI和GoogleAI借助Transformer模型，提出了更加强大的上下文词向量学习方法GPT和BERT。Transformer是为了解决RNN无法并行化的问题，提出Attention is all you need（https://arxiv.org/abs/1706.03762）。以前我们提到Attention用来提升RNN的性能，Transformer更加激进，直接不要RNN，只留下Attention，然后堆叠网络深度，使得其可以和CNN一样并行化，使用GPU之后可以大大加速训练过程。下节课将详细介绍Transformer的内容，这里我们只需要知道Transformer是一个强大的seq2seq（Encoder-Decoder）模型。 BERT就是借助Transformer学习上下文词向量的方法，它的全称是BERT (Bidirectional Encoder Representations from Transformers): Pre-training of Deep Bidirectional Transformers for Language Understanding。 ...

CS224N（1.31）Translation, Seq2Seq, Attention

今天介绍另一个NLP任务——机器翻译，以及神经网络机器翻译模型seq2seq和一个改进技巧attention。机器翻译最早可追溯至1950s，由于冷战的需要，美国开始研制由俄语到英语的翻译机器。当时的机器翻译很简单，就是自动从词典中把对应的词逐个翻译出来。后来在1990s~2010s，统计机器翻译（Statistical Machine Translation, SMT）大行其道。假设源语言是法语$x$，目标语言是英语$y$，机器翻译的目标就是寻找$y$，使得$P(y|x)$最大，也就是下图的公式。进一步，通过贝叶斯公式可拆分成两个概率的乘积：其中$P(y)$就是之前介绍过的语言模型，最简单的可以用n-gram的方法；$P(x|y)$是由目标语言到源语言的翻译模型。为什么要把$P(y|x)$的求解变成$P(x|y)*P(y)$？逐个击破的意思，$P(x|y)$专注于翻译模型，翻译好局部的短语或者单词；而$P(y)$就是之前学习的语言模型，用来学习整个句子$y$的概率，专注于翻译出来的句子从整体上看起来更加通顺、符合语法与逻辑。所以问题就转化为怎样求解$P(x|y)$。 SMT进一步把$P(x|y)$分解成$P(x,a|y)$，其中$a$表示一个对齐alignment，可以认为是两种语言之间单词和单词或短语和短语的一个对齐关系。如下图所示是一个英语和法语的alignment。对齐本身就很复杂，存在1对1，1对多，多对1，多对多等情况，所以$P(x,a|y)$的求解在给定$y$的情况下，不但要考虑对齐方案$a$的情况$P(a|y)$，还需要考虑对齐之后词与词的翻译情况$P(x|a,y)$，可能的情况非常多。那么，SMT怎样找到$\arg max_y$呢？穷举所有情况是不可能的，启发式搜索是可行的。形象描述就是在搜索过程中，对概率较低的路径进行剪枝，只保留概率较大的翻译情况。如下图的搜索树，对于概率较低的路径就不往下搜索了。总之，统计机器翻译非常复杂，有很多的子模块，需要很多的人工干预和特征工程。 2014年，seq2seq模型横空出世，神经网络机器翻译（Neural Machine Translation, NMT）方兴未艾。seq2seq顾名思义，就是从序列到序列的模型，因为机器翻译的源语言和目标语言都是seq。 seq2seq的NMT如下图所示，它由两个RNN组成，左边的红色部分称为Encoder RNN，它负责对源语言进行编码（Encode）；右边的绿色部分称为Decoder RNN，它负责对目标语言进行解码（Decode）。首先，Encoder RNN可以是任意一个RNN，比如朴素RNN、LSTM或者GRU。Encoder RNN负责对源语言进行编码，学习源语言的隐含特征。Encoder RNN的最后一个神经元的隐状态作为Decoder RNN的初始隐状态。Decoder RNN是一个条件语言模型，一方面它是一个语言模型，即用来生成目标语言的；另一方面，它的初始隐状态是基于Encoder RNN的输出，所以称Decoder RNN是条件语言模型。Decoder RNN在预测的时候，需要把上一个神经元的输出作为下一个神经元的输入，不断的预测下一个词，直到预测输出了结束标志符<END>，预测结束。Encoder RNN的输入是源语言的word embeding，Decoder RNN的输入是目标语言的word embeding。 seq2seq是一个很强大的模型，不但可以用来做机器翻译，还可以用来做很多NLP任务，比如自动摘要、对话系统等。 seq2seq作为一个条件语言模型，形式化来说，它直接对$P(y|x)$进行建模，在生成$y$的过程中，始终有$x$作为条件，正如下图的条件概率所示。上面介绍了seq2seq的预测过程，seq2seq的训练过程如下图所示。训练的时候，我们同时需要源语言和翻译好的目标语言，分别作为Encoder RNN和Deocder RNN的输入。对于Encoder RNN没什么好说的。Decoder RNN在训练阶段，每一个时间步的输入是提供的正确翻译词，输出是预测的下一个时间步的词的概率分布，比如在$t=4$，预测输出是$\hat y_4$，而正确答案是“with”，根据交叉熵损失函数，$J_4=-\log P(“with”)$。总的损失函数就是所有时间步的损失均值。 seq2seq的训练过程是end2end的，即把Encoder RNN和Decoder RNN作为一个整体进行训练，不会像SMT一样有很多的子模块单独训练。当然seq2seq也可以单独对encoder和deconder进行训练优化，再组合，但是这个效果不一定会比整体优化encoder和deconder更好。上上张图介绍的seq2seq的预测过程，实际上是一个贪心的预测过程，即在Decoder RNN的每一步都贪心选择$\hat y_t$概率最大的那个词。但是贪心只能保证每一步是最优的，无法保证预测出来的句子整体是最优的。特别是如果在$t$时刻贪心选择的词不是全局最优，会导致$t$时刻往后的所有预测词都是错误的，没有回头路了。但是如果每个时间步都穷举所有可能的情况的话，时间复杂度$O(V^T)$又太高了。 Beam search搜索策略是贪心策略和穷举策略的一个折中方案，它在预测的每一步，都保留Top-k高概率的词，作为下一个时间步的输入。k称为beam size，k越大，得到更好结果的可能性更大，但计算消耗也越大。请注意，这里的Top-k高概率不仅仅指当前时刻的$\hat y_t$的最高概率，而是截止目前这条路径上的累计概率之和，如下图的公式所示。举例如下，假设$k=2$，第一个时间步保留Top-2的词为”he”和”I”，他们分别作为下一个时间步的输入。”he”输入预测输出前两名是”hit”和”struck”，则”hit”这条路的累加概率是”he”的概率加上”hit”的概率=-1.7，类似的可以算出其他几个词对应路径的概率打分。最后在这4条路上保留$k=2$条路，所以”hit”和”was”对应路径保留，作为下一个时间步的输入；”struck”和”got”对应路径被剪枝。最终的搜索树如下图所示，可以看到在每个时间步都只保留了$k=2$个节点往下继续搜索。最后”pie”对应的路径打分最高，通过回溯法得到概率最高的翻译句子。请注意，beam search作为一种剪枝策略，并不能保证得到全局最优解，但它能以较大的概率得到全局最优解，同时相比于穷举搜索极大的提高了搜索效率。在beam search的过程中，不同路径预测输出结束标志符<END>的时间点可能不一样，有些路径可能提前结束了，称为完全路径，暂时把这些完全路径放一边，其他路径接着beam search。beam search的停止条件有很多种，可以设置一个最大的搜索时间步数，也可以设置收集到的最多的完全路径数。当beam search结束时，需要从n条完全路径中选一个打分最高的路径作为最终结果。由于不同路径的长度不一样，而beam search打分是累加项，累加越多打分越低，所以需要用长度对打分进行归一化，如下图所示。那么，为什么不在beam search的过程中就直接用下面的归一化打分来比较呢？因为在树搜索的过程中，每一时刻比较的两条路径的长度是一样的，即分母是一样的，所以归一化打分和非归一化打分的大小关系是一样的，即在beam search的过程中就没必要对打分进行归一化了。 ...

CS224N（1.29）Vanishing Gradients, Fancy RNNs

梯度消失今天介绍RNN的梯度消失问题以及为了解决这个问题引出的RNN变种，如LSTM何GRU。在上一篇博客中，通过公式推导，我们已经解释了RNN为什么容易产生梯度消失或梯度爆炸的问题，核心问题就是RNN在不同时间步使用共享参数$W$，导致$t+n$时刻的损失对$t$时刻的参数的偏导数存在$W$的指数形式，一旦$W$很小或很大就会导致梯度消失或梯度爆炸的问题。下图形象的显示了梯度消失的问题，即梯度不断反传，梯度不断变小（箭头不断变小）。梯度消失会带来哪些问题呢？一个很明显的问题就是参数更新更多的受到临近词的影响，那些和当前时刻$t$较远的词对当前的参数更新影响很小。如下图所示，$h^{(1)}$对$J^{(2)}(\theta)$的影响就比对$J^{(4)}(\theta)$的影响大。久而久之，因为梯度消失，我们就不知道$t$时刻是真的对$t+n$时刻没影响还是因为梯度消失导致我们没学习到这种影响。下图是一个更形象的例子，假设我们需要预测句子The writer of the books下一个单词，由于梯度消失，books对下一个词的影响比writer对下一个词的影响更大，导致模型错误的预测成了are，但这显然是不对的。类似的，如果梯度爆炸，则根据梯度下降的更新公式，参数会一瞬间更新非常大，导致网络震荡，甚至出现Inf或NaN的情况。梯度爆炸一个比较好的解决方法是梯度裁剪，即如果发现梯度的范数大于某个阈值，则以一定的比例缩小梯度的范数，但不改变其方向。如下下图所示，左子图是没有梯度裁剪的情况，由于RNN的梯度爆炸问题，导致快接近局部极小值时，梯度很大，参数突然爬上悬崖，然后又飞到右边一个随机的区域，miss掉了中间的局部极小值。右子图是增加了梯度裁剪之后，更新步伐变小，参数稳定在局部极小值附近。总的来说，梯度爆炸相对好解决，但梯度消失就没那么简单了。在RNN中，每个时刻$t$，都改写了前一个时刻的隐状态，而由于梯度消失问题，长距离以前的状态对当前时刻的影响又很小，所以导致无法建模长距离依赖关系。那么，如果把每个时刻的状态单独保存起来，是否能解决长距离依赖问题呢？ LSTM LSTM就是这样一个思路，请大家结合如下两幅图来理解：（下图）首先，从宏观上来说，LSTM的隐层神经元不仅包含隐状态$h_t$，还专门开辟了一个cell来保存过去的“记忆”$c_t$，LSTM希望用$c_t$来传递很久以前的信息，以达到长距离依赖的目的。所以LSTM隐层神经元的输入是上一时刻的隐状态$h_{t-1}$和记忆$c_{t-1}$，输出是当前时刻的隐状态$h_t$和希望传递给下一个时刻的记忆$c_t$。（上图）每个时刻$t$，为了调控遗忘哪些记忆，写入哪些新记忆，LSTM设置了两个门，分别是遗忘门$f^{(t)}$和写入门$i^{(t)}$。它们都是上一时刻的隐状态$h^{(t-1)}$和当前时刻的输入$x^{(t)}$的函数。$f^{(t)}$控制遗忘哪些记忆，即$f^{(t)}\circ c^{(t-1)}$；$i^{(t)}$控制写入哪些新记忆，即$i^{(t)}\circ \tilde c^{(t)}$，其中$\tilde c^{(t)}$即为期望写入的新记忆，它也是$h^{(t-1)}$和$x^{(t)}$的函数。最终，新时刻$t$的记忆就是这两部分的组合，请看上图$c^{(t)}$表达式。（上图）输出门$o^{(t)}$控制哪些记忆需要输出到下一个隐状态$h^{(t)}$，$o^{(t)}$自己又是$h^{(t-1)}$和$x^{(t)}$的函数。大家结合上图的公式和下图的示意图就不难理解了。 LSTM解决梯度消失最直接的方法就是，遗忘门选择不遗忘，每一时刻的$f^{(t)}$都选择记住前一时刻的记忆$c^{(t-1)}$，然后直接传递给下一时刻。那么，所有前$t-1$时刻的记忆都会被完整的传递给第$t$时刻，从而对$t$时刻的输出产生影响。而朴素RNN无法保存前期状态的原因就是因为朴素RNN把之前时间步的信息都一股脑存储在隐状态$h^{(t)}$中了，隐状态$h^{(t)}$成为了整个网络的瓶颈，一旦出现梯度消失，则很久以前的信息对当前时刻的影响就微乎其微了。LSTM的关键就是开辟了一个新的cell来存储记忆，这个新的cell相当于记忆的一条捷径，时刻$t$除了可以像常规RNN一样通过$h^{(t-1)}$来获取很久以前的信息，还可以通过cell存储的记忆$c^{(t-1)}$来便捷地获取到很久以前的信息，所以隐状态$h^{(t)}$不再成为整个网络的瓶颈，有新的cell来分担。需要提醒的是，虽然LSTM开辟新的cell来存储记忆，但这个记忆也会受到连续梯度相乘的影响，所以依然存在梯度消失或梯度爆炸的问题，但从实际效果来看，LSTM性能很不错，也很鲁棒。 GRU 另一种能缓解RNN梯度消失的网络——GRU。为了简化LSTM，GRU又没有cell了，但依然保留了门来控制信息的传递。首先看下图最后一个公式，当前时刻的隐状态$h^{(t)}$等于上一时刻的隐状态$h^{(t-1)}$和新写入的隐状态$\tilde h^{(t)}$的加权平均，通过更新门$u^{(t)}$来控制它们之间的比例，$u^{(t)}$是上一时刻的隐状态$h^{(t-1)}$和当前时刻的输入$x^{(t)}$的函数。新写入的隐状态$\tilde h^{(t)}$又通过一个重置门$r^{(t)}$来控制，类似的，$r^{(t)}$也是$h^{(t-1)}$和$x^{(t)}$的函数。个人觉得，GRU中的更新门$u^{(t)}$类似于LSTM中的输出门$o^{(t)}$；GRU中的重置门$r^{(t)}$类似于LSTM中的遗忘门$f^{(t)}$和写入门$i^{(t)}$的组合；GRU中新写入的隐状态$\tilde h^{(t)}$类似于LSTM中的细胞记忆$c^{(t)}$。所以，可以把GRU看作LSTM的简化版本。直观来说，GRU和LSTM类似，解决梯度消失的策略就是新增$u^{(t)}$来控制$h^{(t-1)}$和$\tilde h^{(t)}$的比例，如果$u^{(t)}=0$，则$h^{(t)}=h^{(t-1)}$，即$t$时刻的隐状态和上一时刻的隐状态相同，虽然这肯定效果不好，但至少说明GRU是有能力保留之前的隐状态的。 GRU和LSTM的性能差不多，但GRU参数更少，更简单，所以训练效率更高。但是，如果数据的依赖特别长且数据量很大的话，LSTM的效果可能会稍微好一点，毕竟参数量更多。所以默认推荐使用LSTM。其他缓解梯度消失的策略由于链式法则，或者所选非线性激活函数的原因，不仅仅RNN，所有神经网络都存在梯度消失或者梯度爆炸的问题，比如全连接网络和CNN。一些通用解决方法如下： ResNet。因为梯度是在传递的过程中逐渐减小并消失的，如果跨越好几层直接进行连接，天然能保持远距离信息。个人理解，这就相当于买家和卖家直接相连，没有中间商赚差价$\mathcal F(x)$，买到的价格最接近卖出的价格$x$。能一定程度上减弱梯度消失的问题。更激进的是DenseNet，把跨越多层之间的很多神经元都连起来，也就是说有更多的线路没有中间商赚差价，进一步减弱梯度消失问题。 HighwayNet。借鉴了LSTM和GRU的思路，不是像ResNet一样直接新增一条直连线路$x$，而是搞一个平衡因子$u$，卖家到买家的价格由$u$进行调和平均：$u*\mathcal F(x)+(1-u)*x$，用$u$来控制多少走中间商，多少走直连线路。虽然所有神经网络都存在梯度消失的问题，但RNN的这个问题更严重，因为它连乘的是相同的权重矩阵W，而且RNN针对的是序列问题，往往更深。双向RNN 假设我们在对句子进行情感分类，如下图所示。对于terribly这个词，常规RNN，terribly的梯度只能看到左边的信息，看不到右边的信息，因为网络是从左到右的。单独看terribly或者从左往右看，在没有看到exciting时，可能认为terribly是贬义词，但是如果跟右边的exciting结合的话，则意思变为强烈的褒义词，所以有必要同时考虑左边和右边的信息。双向RNN包含两个RNN，一个从左往右，一个从右往左，两个RNN的参数是独立的。最后把两个RNN的输出拼接起来作为整体输出。那么，对于terribly这个词，它的梯度能同时看到左边和右边的信息。由于双向RNN对于某个时刻$t$，既需要知道$t$时刻前的信息（Forward RNN），又需要知道$t$时刻之后的信息（Backward RNN），所以双向RNN无法用于学习语言模型，因为语言模型只知道时刻$t$之前的信息，下一时刻的词需要模型来预测。对于包含完整序列的NLP问题，双向RNN应该是默认选择，它通常比单向RNN效果更好。多层RNN 前面展示的RNN从时间$t$的维度上来说可以认为是多层的，但是RNN还可以从另一个维度来增加层数。如下图所示，将上一层（RNN layer 1）的输出作为下一层（RNN layer 2）的输入，不断堆叠下去，变成一个多层RNN。通常来说，深度越大，性能越好，如果梯度下降能训练好的话。 RNN的层数通常不会很深，不会像CNN一样，达到上百层，RNN通常2层，最多也就8层。一方面是RNN的梯度消失问题比较严重，另一方面是RNN训练的时候是串行的，不易并行化，导致网络太深的话训练很花时间。 ...

CS224N（1.24）Language Models and RNNs

今天要介绍一个新的NLP任务——语言模型（Language Modeling, LM），以及用来训练语言模型的一类新的神经网络——循环神经网络（Recurrent Neural Networks, RNNs）。语言模型就是预测一个句子中下一个词的概率分布。如下图所示，假设给定一个句子前缀是the students opened their，语言模型预测这个句子片段下一个词是books、laptops、exams、minds或者其他任意一个词的概率。形式化表示就是计算概率 $$\begin{eqnarray}P(x^{(t+1)}|x^{(t)},…,x^{(1)})\tag{1}\end{eqnarray}$$$x^{(t+1)}$表示第$t+1$个位置（时刻）的词是$x$，$x$可以是词典$V$中的任意一个词。既然语言模型在给定前t个词之后可以预测第t+1个词的概率，那么预测到第t+1个词之后，又可以递归的根据前t+1个词预测第t+2个词，如此不断的进行下去，就可以预测一整个句子的概率了。所以，也可以把语言模型看做一个可以计算一个句子出现的概率的系统，形式化表示就是如果一个句子是$x^{(1)},…,x^{(T)}$ ，那么语言模型可以计算句子概率 $$\begin{eqnarray}P(x^{(1)},…,x^{(T)})& = & P(x^{(1)})\times P(x^{(2)}|x^{(1)})\times…\times P(x^{(T)}|x^{(T-1)},…,x^{(1)}) \tag{2}\\& = & \prod_{t=1}^T P(x^{(t)}|x^{(t-1)},…,x^{(1)})\tag{3}\end{eqnarray}$$可以看到(3)式连乘的项就是(1)式，所以这两个定义的内涵是一样的。那么语言模型有什么用呢？它的用处可大了，比如现在的输入法会根据前一个输入的词预测下一个将要输入的词，此所谓智能输入法；比如在百度或谷歌搜索时，输入前几个关键词，搜索引擎会自动预测接下来可能的几个词；比如网上有很多智能AI会自动生成新闻、诗歌；还比如用在语音识别、机器翻译、问答系统等等。可以说语言模型是很多NLP任务的基础模块，具有非常重要的作用。在前-深度学习时代，人们使用n-gram方法来学习语言模型。对于一个句子，n-gram表示句子中连续的n个词，比如还是上图的例子，n-gram对于n=1,2,3,4的结果是： 1-grams (unigrams): “the”, “students”, “opened”, “their” 2-grams (bigrams): “the students”, “students opened”, “opened their” 3-grams (trigrams): “the students opened”, “students opened their” 4-grams: “the students opened their” n-gram方法有一个前提假设，即假设每个词出现的概率只和前n-1个词有关，比如2-gram对于每个词出现的概率只和前面一个词有关，和更前面的词以及后面的词都没有关系，所以我们有如下图的assumption。又这是一个条件概率，展开之后得到如下除法的形式。n-gram的计算方法就是，统计语料库中出现$x^{(t)},…,x^{(t-n+2)}$的次数（分母），以及在这个基础上再接一个词$x^{(t+1)}$的次数$x^{(t+1)},x^{(t)},…,x^{(t-n+2)}$（分子），用后者除以前者来近视这个条件概率。举个例子，假设完整的句子是as the proctor started the clock, the students opened their，需要预测下一个词的概率分布。对于4-gram方法，则只有students opened their对下一个词有影响，前面的词都没有影响。然后我们统计训练集语料库中发现，分母students opened their出现1000次，其后接books即students opened their books出现了400次，所以P(books|students opened their)=400/1000=0.4。类似的，可以算出下一个词为exams的概率是0.1。所以4-gram方法认为下一个词是books的概率更大。 ...