论文笔记：LSTM, GRU, Highway and a Bit of Attention: An Empirical Overview for Language Modeling in Speec-APISpace

论文笔记：LSTM, GRU, Highway and a Bit of Attention: An Empirical Overview for Language Modeling in Speec

感想

本文主要比较了LSTM,GRU,Highway,attention模型在语音识别上的语言模型的优劣，总体而言LSTM还是占优势的，attention虽然新颖，但是实验结果不是很好，但是在以后的研究中还是值得借鉴的，本文公式比较复杂，需要有一定RNN基础才能理解。

1、介绍

语言模型是自动语音识别中的一个关键组件，这其中包括出现的端到端的系统，结合两种互补的方法，基于统计的n-fram和基于神经网络的模型，可以取得当前最好的语言模型。最近的技术主要是在神经网络上面的改进。特别是基于LSTM,RNN的模型，这些模型已经显示效果很好。LSTM的主要创新点是在其结构中使用了软门（soft gates），它自身是一个RNN模型。事实上，除了输出激励，LSTM还存储了一个内部记忆单元激励（internal memory cell activation）。每种通往内部记忆的单元的入口是由相对应的门管理，这是通过门的激励和相应的动作的乘积实现的（gate via multiplication between the gate activation and the activation related to the corresponding action）。而这些门第一眼看上去很复杂，但经验告诉我们一个简单的SGD就可以有效的训练这个模型：毕竟，最初设计这个结构的动机是缓解训练时候的梯度消失的问题，这是标准的RNN在运用反向传播算法的时候会遇见的问题。

LSTM的成功打开了设计神经网络的时候用乘法门（multiplicative gates）的大门。早期的工作是把乘法门用到高阶神经网络（higher-orderneural networks），最近的研究是把乘法门作为一种控制信息的进入网络的方法。结果，出现了许多的概念，GRU作为LSTM的一种简单的变体被提出。高速网络设置门去通畅信息流，使得信息向深层次的网络的。然而，在张量网络里可以找到更基本的网络，叫做lateral network.

这篇文章的目标是评估这些概念上的语言模型的有效性，这里的语言模型是用于大词汇量语音识别的。更具体的，我们首先调研了前向模型公路连接（highway connection）的效果。对lateral network的评估包含对该网络的分析。前面很多的调查都是比较LSTM和GRU的，比较它们在多任务上的效果，其中包括语言模型；但是，这些实验经常是在小任务上做的，典型的是PennTreebank。而在较大的任务中我们也做了深入的探讨，这包含n-gram的语音识别流程。

另外，把公路连接（highway connections）的动机应用到循环网络，LSTM的拓展，即在相邻的记忆单元建立一个线性的连接，现在很多网络都用到了这个种思路。这样的技术是针对LSTM而言，我们调查了把公路（highway）运用到循环网络的直接应用，通过替换公路层（highway layer）中的转换操作，这是通过一个gated RNN实现的。这个拓展既可以用于LSTM又可以用于GRU。

可是，门不是在神经网络中使意图显式（make the intention explicit）的唯一方式。最近，注意力机制可以选择与输入相关部分做预测，现在这在很多方面都很成功。因此，我们调查了一个神经语言模型的学习，这个模型的词的激发可以可视化（word triggers can be explicitly visualized）。

2 Networks with Multiplicative Gates

2.1. Highway network

公路网络（highway network），最常用的公路层的定义如下：

理解上面的公式很简单。这个结构最开始的动机是通过线性连接，确保相邻层的信息畅通流动，这叫做公路连接（highway connection）。这种结构被证明能有效的训练非常深的网络（达到900层）。可是，实际的语言模型，只会用到很少的层数就能达到效果。在语言模型中，公路（highway）作为一种结合单词级别特征（word-level feature）和字符级别局部特征（character-level local features;）的方法。当使用两层公路的时候，改进很小（the improvements in perplexity were reported），毕竟，公路可以被看作为不同阶段转换的特征的特征结合。本实验我们用的是highway层Sigm-HW（本文没有对这个东西做解释，以后有查资料了有机会再补上）.

2.2. Lateral network (Tensor network)

由上面公式的（1），（2）得到lateral network：

首先，他可以看作是maxout networks的一个变体，圆圈符号代表元素元素的最大操作，而不是内积。解释这种结构的另一种方式是把g当做一个关联门，y作为x的一个简单的变换（一个没有公路连接（highway connection）的公路网络（highway network）），我们把它用到语言模型中进行评估，结果显示，它比基于最大操作变体（variant based on the maximum operation）的效果好。

2.3. Long short-term memory (LSTM)

LSTM-RNN的定义如下：

其中h为真正意义上的输出，但这不是LSTM的唯一的变体，（由于效率的原因，窥视孔连接（peephole connections）经常被移除），在这篇文章中，我们使用标准公式的LSTM。

2.4. Gated recurrent units (GRU)

GRU公式如下：

和LSTM相比，GRU有两个门（重置门rt和更新门zt）,并且没有记忆单元。

3. Incorporating Highway into Gated RNNs

3.1. 现有的技术: Depth-gated LSTM

许多研究都是把栈式LSTM拓展为在相邻LSTM层上加一个线性的连接。这是一个LSTM的一个很自然的一个拓展，因为LSTM的记忆单元一直是线性连接的。这种模型可以用于声学模型，结果表明其效果超过了标准的LSTM模型，特别是在判别式训练的环境下（in the context ofdiscriminative training）。这各提议的LSTM结构，depth-gated LSTM 或者highway

LSTM是由下面得到的

如果前面的l-1层也是一个LSTM层，如果不是的话：

通过构造，l层的结点和l-1层的结点应该对应，中间插入了一个额外的映射层。这是一个LSTM的特定的拓展，相比较，我们调查了highway operation的直接应用，它既可以用于GRU，又可以用于LSTM。GRU描述如下

3.2. GRU-Highway: simple substitution

因为公路层包含变换和非变换的特征，变换的部分可以用其它操作代替，例如，对于GRU,我们可以得到如下的公式：

在实验阶段，我们集中于GRU版本。

4.语音识别实验

我们的实验局限于英文广播新闻和对话语音识别任务，来自Quaero项目。

4.1. 基线系统描述（Baseline systemdescription）

这个工作的ASR的基准线和我们以前的工作相同。对于声学模型，是一个混合12层基于前馈网络的线性单元。这个模型用了4种语言（法语，英语，德语，波兰语）去初始化，总共有800个小时的语音，随后用了250小时的英文数据进行微调（fine-tuned）。最小化音素错误序列级的判别式训练标准用在了最后一步。作为基线的N-gram的统计语言模型：4-gram 模型，使用了Kneser-Ney smoothing（KN4）,总计用了3.1B的单词进行训练，词汇量为150k。3.1B数据有11个子语料库（sub-corpora）组成。小的语言模型（Small LMs）都是在每一个子语料库上训练，最后融合成一个模型。插值权重（interpolation weights）使用了SRILM在development text上进行了优化。Development和evaluation文本分别包含40k和36k个单词。

4.2基于神经网络的语言模型（NLMs）

所有的语言模型都是基于神经网络，用了50M的单词进行训练，50M的数据取自于自3.1B数据。NLMs的词汇的大小是128K;并且用了KN4进行重规范化（renormalization），以便于进行插值（interpolation）。在50M语料库中，这包含2M域内集合（in-domain set）。我们也对2M数据进行微调（fine-tuning）。训练是用SGD进行训练，前馈模型的mini-batches的大小是64。循环模型用时间方向上用反向传播，没有截断（without truncation），minibatch的大小是4，NLMs的输出层一直是1000个单词类别，所有的模型都实现了，作为rwthlm tookit的一个拓展。除了最大的LSTM（3层 600个结点）,用GPU训练训练外，batchsize是8，其它的模型用CPU的多线程。

4.3. 基于文本的结果（Text-based Results）

4.3.1. Gates in MLP based models

我们训练的是20-gram模型，每个单词有300个单元的映射层，6000个单元的多栈式隐含层。我们既不使用层级训练（layer-wise training），也不用低秩分解（lowrank factorization）。所有的模型都使用logistic函数作为激励函数，指数线性单元（ELU）用于测试MLP的基线。所有的模型都微调了。

上表展示了2层具有不同类型层的模型的性能，在Sigm-HW映射层之后的第一层是一个标准的MLP层。不同类型的perplexities表现得几乎一样，Lateral网络表现的稍微好一点。为了评估深度模型的公路连接的效果，我们把层数增加到了5层。

表2展示了在develop集合下的Perplexities，首选，基准MLP在第四层的时候就接近饱和，知道5层的时候highway模型才退化。另外，公路模型相比于基准，性能提高了4%。Lateral在3层的时候饱和了，它的最佳perplexities相比highway model表现得稍微差一点，结果也表明了highway线性连接的重要性，因为lateral 网络仅仅是在公路网络连接上不一样（differs from the highway network in that connection.）。

4.3.2. LSTM 和GRU

如上表，我们比较了LSTM和GRU,size为200的时候，GRU表现的比LSTM稍微好一点，当深度增加的时候，LSTM表现的比GRU好：最终，最佳的perplexity是一个栈式的，2层LSTM.除此之外，这两种结构在2层之后出现了饱和，基本不怎么提升了。为了进一步改进perplexities,我们在最佳模型上进行微调，结果如表4：

4.3.3. Highway network based on GRU

为了评估highway 连接在RNNs的效果，我们评估了有GRU变换的highway network.我们堆叠到了4层这样的单元层（We stacked until four such layer）。

如表5，标准的GRU在超过2层的时候就退化了，而GRU-HW可以使得结构更深，取得了4%的提升。300个结点的时候，perplexities从110.7降到了106.3。当有500个结点，4层的时候，取了了5%的提升（Furtherimprovements of 5% rel），从104.7降到了99.1.

4.4. Lattice Rescoring Results

说实话，我还真不懂什么是lattice rescoring，不过结果已经展示出来了。至于解释的话，等我了解了这个模型之后再补上。

上表显示了模型中word error rate和perplexities，LSTM(600x2)的模型表现最佳，其次是GRU-HW（500x4）。

5. Attention for Learning Word Triggers

目前，我们关注的是基于神经网络的门的机制，乘法门的使用不是一个给网络部分赋予显式意思（give explicit meaning to parts of a neural network）的唯一方法。最近提出来的Attention机制学习了输入和每一个预测的关联。这种想法对语言模型的应用时有意义的：上下文下特定文字可以和特定的相关词的预测有关，像基于统计方法的多文字激发（(multi-)word triggers），我们提出了我们在学习上初始的结果，关于在word triggers上用attention机制。

5.1. 模型描述

5.1.1. Attention layer

简单的attention机制可以定义为一层，在t时刻的输入是先前层的输出（x1,x2,…,xt），计算器在环境xt情况下的标量分数，结果分数向量s=(s1,…,st)，输出是环境下的权重平均值。

5.1.2. Neural word trigger models, a naive approach

我们把这样的attention层插入到一个简单的3层网络：映射（projection），GRU,输出层。Attention层要么插入到projecion和GRU之间，要么插入到GRU和输出之间。实验结果表明，后一种方式不适合word trigger,因为在这样一个模型中，attention层GRU最新的输出，这可以被看做完全环境（full context）。因此，我们用前面的方式。

5.2. 结果

模型每层有300个结点，基于attention的trigger模型的perplexity为157.6，在同等数据的情况下，它的结果比KN4（163.0）好，但是比GRU的基准差（110.7，微调后115.7，如表3）。尽管他的全局perplexity相对较高，但是在一些句子中，我们得到了质量意义的出发（qualitativelymeaningful triggers）。

另外，和当前的基于统计的triggers不一样，自我触发的方式还不是很常见。而我们发现结果在质量上很有趣，但是在普通模型表现上还不是满意。在在分数函数中的弱依赖可能是这个原因。最近，还有更复杂的方法把attention机制用来增强LSTM语言模型上。

参考文献

[1]. Kazuki Irie, Zoltán Tüske, TamerAlkhouli, Ralf Schlüter, Hermann Ney:

LSTM, GRU, Highway and a Bit of Attention:An Empirical Overview for Language Modeling in Speech Recognition. INTERSPEECH2016: 3519-3523

python怎么过滤字符串中的英文字母

258 2022-09-15

论文笔记：LSTM, GRU, Highway and a Bit of Attention: An Empirical Overview for Language Modeling in Speec

c语言sscanf函数的用法是什么

r语言清空数组的方法是什么

python怎么过滤字符串中的英文字母

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）