Rnn

LSTM是一种特殊的循环神经网络，它可以学习长词依赖关系。最初由[Hochreiter & Schmidhuber]提出，经后续研究者的多次改进。现在已经在很多任务上效果表现很好，并被广泛应用。

LSTM被设计用于避免长词依赖的问题。记住长期的信息是它们自带的行为，并不是勉强为之。

所有的循环神经网络都有一个链式神经网络循环模块。在标准的RNN中，重复模块中只有一个简单的结构，例如只是单层tanh。

图

LSTMs同样有类似链式结构，但是重复模块部分结构不同。通常有更复杂的结合形式，这里有4个。

图

不要担心接下来的内容。我们将一步一步的学习LSTM。现在，开始熟悉相关概念。

图

在上面的图例中，每条线包含一个完整向量，从一个节点的输出到其他节点的输入。粉色圆圈代表点操作（pointwise），例如向量相加。黄色盒子表示神经网络学习层。汇合的线表示连接，而分开的线表示复制，另一份数据被复制到其他地方。

###LSTM后的核心

LSTM的关键在于细胞状态（cell state），也就是上图中顶部的水平线。

细胞状态是一种类似于传送带。它在整个链式结构中穿行，仅带有较小的线性操作。它较容易的让信息在其中不被改变的传输。

图

LSTM具有去除或者添加信息到细胞状态的能力，这由一个叫门（gate）的结构控制着。

门（gate）是一种让信息通过的可选装置。它由一个sigmoid神经网络层和一个点乘（pointwise multiplicatioon）操作构成。

图

Sigmoid层输出0到1之间的数，描述每个组件对信息放行的程度。0表示不放行，1表示放行全部。

一个LSTM有三个这样的门，保护和控制细胞状态。

###逐步深入LSTM

学习LSTM的第一步就是要决定什么样的信息需要从细胞状态中丢弃。这个决定由一个sigmoid层来完成，它叫做遗忘层（forget gate layer）。它处理$h_{t-1}$和$x_t$，为$C_{t-1}$输出一个0到1之间的数值。1表示完全保留，0表示完全抛弃。

回到语言模型中预测最后一个词的例子。在这类问题中，细胞状态应该包含前一个话题的类型，于是，正确的代词是可以利用。当遇到一个新的对象，就可以扔掉前一个对象了。

图

下一步是需要决定什么样的新信息需要在细胞状态中保留。这里包含两部分。首先，一个sigmoid层叫做输入门层（input gate layer）来决定什么样的数值将被更新。然后，一个tanh层为新侯选值创建个向量$\overline C_t$，可能用于加到状态上。下一步，我们将合并两者，用于更新状态。

在语言模型的例子中，我们希望将新对象的性质加到细胞状态中，替代已有的那个。

图

现在就需要更新就细胞状态$C_{t-1}$为$C_t$。

我们将旧状态乘以$f_t$，遗忘掉前面已经决定丢弃的信息。然后加上$i_t * \overline C_t$。这就是新的候选值，受我们决定每个状态值的程度影响。

图

最后，我们需要决定输出什么样的信息。输出结果会基于先前的细胞状态，但是将有一个过滤版本。首先，我们需要用一个sigmoid来决定哪部分的细胞状态可以被输出。然后，我们需要将细胞状态通过一个tanh，然后与另一个sigmod门的输出相乘，得到最终输出结果。

对于语言模型例子，由于它只是看到一个对象，它可能想要输出一个动词相关的信息，以防这就是所需要的。例如，它可能输出是否这个对象为单数或者复数，于是我们可以知道这个动词从形式应该用什么。

图

###LSTM上的变形

前面介绍的均为一个标准普通的LSTM。但是，并非所有的LSTM都和上面的一样。事实上，每篇论文中的LSTM都不一样。尽管差异比较小，但是值得去关注某些部分。

一个较出名的变形LSTM是[Gers & Schmidhuber]提出的，增加了’peephole connections’，这意味着我们让门层管理着细胞状态。

图

上面的途中，增加了peepholes给全部的门，但是很多论文中只给部分门，而不是全部。

另一种变形是增加双重遗忘和输出门。替代了分开决定什么需要被遗忘和应该添加什么信息，这里同时做这两个决定。只在需要输入什么的时候添加遗忘，只在遗忘某些旧信息的时候去添加新的值到状态中。

图

另一种更魔幻的变形是循环门单元或者叫GRU，由[Cho等人]提出。它合并了遗忘门和输入门到一个单独的更新门（update gate）。同样合并了细胞状态和隐含状态，还有一些其他变化。结果模型比标准LSTM更简单，也正在变得流行起来。

图

这只是其中较为出名的变形。还有很多其他的变形，如Depth Gated RNN。还有其他方法来跟踪长词依赖，例如Clockwork RNN。

哪一种变形更好呢？他们有什么区别么？Greff等人做了一个清晰的比较，发现他们都差不多。Jozefowicz等人测试了1w多种RNN结构，发现有些在任务上比LSTM效果要好。

###总结

前面，我提到了采用RNN带来的显著成果。重要的是他们都采用了LSTM。并且结果确实好。

写了一堆公式之后，LSTM看起来更吓人了。但通过一步步深入了解它，让它更容易理解。

LSTM是在采用RNN实现任务的一大步。让人好奇的是：另一大步在哪？研究者们的共识是：有的，另一大步就是attention。这个思路让RNN在每一步挑选信息时都会注意更大的信息集合。例如，当使用RNN来创建描述图片的标题是，它可能挑选图片的一部分，然后找词来描述它。事实上，Xu等人也这么做了，如果你想挖掘attention，这可能是个有趣的开始。已经有很多惊人的结果采用了attention，而且看上去还有更多。。。

Attention并不是RNN研究中唯一的亮点。例如，Grid LSTM看起来就特别赞。还有RNN的生成模型。过去几年中，RNN大放异彩，相信未来几年会更好。

Sonyfe25cp的玩具

Rnn