Monthly Archives: August 2019

这节课的内容比较简单，是问答系统（Question Answering, QA）的入门介绍。

首先，为什么需要QA？目前各大搜索引擎对于一个查询，给出的都是一个结果列表。但是很多查询是一个问题，答案也往往比较确定，比如“现任美国总统是谁？”，此时，返回一堆结果列表就显得太过啰嗦了，尤其是在手机等移动设备上搜索时，简单的给出回答也许会更好一些。另一方面，智能手机上的助手如Siri、Google Now之类的，用户期望的也是简洁的答案，而不是一堆网页列表。

QA系统的组成主要有两个部分，一部分是根据问题检索到相关的文档，这部分是传统的信息检索的内容；另一部分是对检索到的文档进行阅读理解，抽取出能回答问题的答案，这部分就是本文要介绍的QA系统。

QA的历史可追溯到上世纪七十年代，但真正取得突破性进展也就是最近几年。2015/2016年，几个大规模QA标注数据集的发表，极大的推动了这个领域的发展。这其中比较有名的数据集是斯坦福大学发布的Stanford Question Answering Dataset (SQuAD)。

Continue reading →

CS224N（1.31）Translation, Seq2Seq, Attention

7 Replies

今天介绍另一个NLP任务——机器翻译，以及神经网络机器翻译模型seq2seq和一个改进技巧attention。

机器翻译最早可追溯至1950s，由于冷战的需要，美国开始研制由俄语到英语的翻译机器。当时的机器翻译很简单，就是自动从词典中把对应的词逐个翻译出来。

后来在1990s~2010s，统计机器翻译（Statistical Machine Translation, SMT）大行其道。假设源语言是法语$x$，目标语言是英语$y$，机器翻译的目标就是寻找$y$，使得$P(y|x)$最大，也就是下图的公式。进一步，通过贝叶斯公式可拆分成两个概率的乘积：其中$P(y)$就是之前介绍过的语言模型，最简单的可以用n-gram的方法；$P(x|y)$是由目标语言到源语言的翻译模型。为什么要把$P(y|x)$的求解变成$P(x|y)*P(y)$？逐个击破的意思，$P(x|y)$专注于翻译模型，翻译好局部的短语或者单词；而$P(y)$就是之前学习的语言模型，用来学习整个句子$y$的概率，专注于翻译出来的句子从整体上看起来更加通顺、符合语法与逻辑。所以问题就转化为怎样求解$P(x|y)$。

Continue reading →

CS224N（1.29）Vanishing Gradients, Fancy RNNs

2 Replies

梯度消失

今天介绍RNN的梯度消失问题以及为了解决这个问题引出的RNN变种，如LSTM何GRU。

在上一篇博客中，通过公式推导，我们已经解释了RNN为什么容易产生梯度消失或梯度爆炸的问题，核心问题就是RNN在不同时间步使用共享参数$W$，导致$t+n$时刻的损失对$t$时刻的参数的偏导数存在$W$的指数形式，一旦$W$很小或很大就会导致梯度消失或梯度爆炸的问题。下图形象的显示了梯度消失的问题，即梯度不断反传，梯度不断变小（箭头不断变小）。

Continue reading →

bitJoy

A little bit of 0/1 joy

Monthly Archives: August 2019

【论文速读】End-to-End Differentiable Learning of Protein Structure

CS224N（2.12）Convolutional Networks for NLP

CS224N（2.7）Question Answering

CS224N（1.31）Translation, Seq2Seq, Attention

CS224N（1.29）Vanishing Gradients, Fancy RNNs