论文笔记:LSTM, GRU, Highway and a Bit of Attention: An Empirical Overview for Language Modeling in Speec

网友投稿 258 2022-09-15

论文笔记:LSTM, GRU, Highway and a Bit of Attention: An Empirical Overview for Language Modeling in Speec

感想

本文主要比较了LSTM,GRU,Highway,attention模型在语音识别上的语言模型的优劣,总体而言LSTM还是占优势的,attention虽然新颖,但是实验结果不是很好,但是在以后的研究中还是值得借鉴的,本文公式比较复杂,需要有一定RNN基础才能理解。

1、 介绍

语言模型是自动语音识别中的一个关键组件,这其中包括出现的端到端的系统,结合两种互补的方法,基于统计的n-fram和基于神经网络的模型,可以取得当前最好的语言模型。最近的技术主要是在神经网络上面的改进。特别是基于LSTM,RNN的模型,这些模型已经显示效果很好。LSTM的主要创新点是在其结构中使用了软门(soft gates),它自身是一个RNN模型。事实上,除了输出激励,LSTM还存储了一个内部记忆单元激励(internal memory cell activation)。每种通往内部记忆的单元的入口是由相对应的门管理,这是通过门的激励和相应的动作的乘积实现的(gate via multiplication between the gate activation and the activation related to the corresponding action)。而这些门第一眼看上去很复杂,但经验告诉我们一个简单的SGD就可以有效的训练这个模型:毕竟,最初设计这个结构的动机是缓解训练时候的梯度消失的问题,这是标准的RNN在运用反向传播算法的时候会遇见的问题。

LSTM的成功打开了设计神经网络的时候用乘法门(multiplicative gates)的大门。早期的工作是把乘法门用到高阶神经网络(higher-orderneural networks),最近的研究是把乘法门作为一种控制信息的进入网络的方法。结果,出现了许多的概念,GRU作为LSTM的一种简单的变体被提出。高速网络设置门去通畅信息流,使得信息向深层次的网络的。然而,在张量网络里可以找到更基本的网络,叫做lateral network.

这篇文章的目标是评估这些概念上的语言模型的有效性,这里的语言模型是用于大词汇量语音识别的。更具体的,我们首先调研了前向模型公路连接(highway connection)的效果。对lateral network的评估包含对该网络的分析。前面很多的调查都是比较LSTM和GRU的,比较它们在多任务上的效果,其中包括语言模型;但是,这些实验经常是在小任务上做的,典型的是PennTreebank。而在较大的任务中我们也做了深入的探讨,这包含n-gram的语音识别流程。

另外,把公路连接(highway connections)的动机应用到循环网络,LSTM的拓展,即在相邻的记忆单元建立一个线性的连接,现在很多网络都用到了这个种思路。这样的技术是针对LSTM而言,我们调查了把公路(highway)运用到循环网络的直接应用,通过替换公路层(highway layer)中的转换操作,这是通过一个gated RNN实现的。这个拓展既可以用于LSTM又可以用于GRU。

可是,门不是在神经网络中使意图显式(make the intention explicit)的唯一方式。最近,注意力机制可以选择与输入相关部分做预测,现在这在很多方面都很成功。因此,我们调查了一个神经语言模型的学习,这个模型的词的激发可以可视化(word triggers can be explicitly visualized)。

2 Networks with Multiplicative Gates

2.1. Highway network

公路网络(highway network),最常用的公路层的定义如下:

理解上面的公式很简单。这个结构最开始的动机是通过线性连接,确保相邻层的信息畅通流动,这叫做公路连接(highway connection)。这种结构被证明能有效的训练非常深的网络(达到900层)。可是,实际的语言模型,只会用到很少的层数就能达到效果。在语言模型中,公路(highway)作为一种结合单词级别特征(word-level feature)和字符级别局部特征(character-level local features;)的方法。当使用两层公路的时候,改进很小(the improvements in perplexity were reported),毕竟,公路可以被看作为不同阶段转换的特征的特征结合。本实验我们用的是highway层Sigm-HW(本文没有对这个东西做解释,以后有查资料了有机会再补上).

2.2. Lateral network (Tensor network)

由上面公式的(1),(2)得到lateral network:

首先,他可以看作是maxout networks的一个变体,圆圈符号代表元素元素的最大操作,而不是内积。解释这种结构的另一种方式是把g当做一个关联门,y作为x的一个简单的变换(一个没有公路连接(highway connection)的公路网络(highway network)),我们把它用到语言模型中进行评估,结果显示,它比基于最大操作变体(variant based on the maximum operation)的效果好。

2.3. Long short-term memory (LSTM)

LSTM-RNN的定义如下:

其中h为真正意义上的输出,但这不是LSTM的唯一的变体,(由于效率的原因,窥视孔连接(peephole connections)经常被移除),在这篇文章中,我们使用标准公式的LSTM。

2.4. Gated recurrent units (GRU)

GRU公式如下:

和LSTM相比,GRU有两个门(重置门rt和更新门zt),并且没有记忆单元。

3. Incorporating Highway into Gated RNNs

3.1. 现有的技术: Depth-gated LSTM

许多研究都是把栈式LSTM拓展为在相邻LSTM层上加一个线性的连接。这是一个LSTM的一个很自然的一个拓展,因为LSTM的记忆单元一直是线性连接的。这种模型可以用于声学模型,结果表明其效果超过了标准的LSTM模型,特别是在判别式训练的环境下(in the context ofdiscriminative training)。这各提议的LSTM结构,depth-gated LSTM 或者highway

LSTM是由下面得到的

如果前面的l-1层也是一个LSTM层,如果不是的话:

通过构造,l层的结点和l-1层的结点应该对应,中间插入了一个额外的映射层。 这是一个LSTM的特定的拓展,相比较,我们调查了highway operation的直接应用,它既可以用于GRU,又可以用于LSTM。GRU描述如下

3.2. GRU-Highway: simple substitution

因为公路层包含变换和非变换的特征,变换的部分可以用其它操作代替,例如,对于GRU,我们可以得到如下的公式:

在实验阶段,我们集中于GRU版本。

4.语音识别实验

我们的实验局限于英文广播新闻和对话语音识别任务,来自Quaero项目。

4.1. 基线系统描述(Baseline systemdescription)

这个工作的ASR的基准线和我们以前的工作相同。对于声学模型,是一个混合12层基于前馈网络的线性单元。这个模型用了4种语言(法语,英语,德语,波兰语)去初始化,总共有800个小时的语音,随后用了250小时的英文数据进行微调(fine-tuned)。最小化音素错误序列级的判别式训练标准用在了最后一步。作为基线的N-gram的统计语言模型:4-gram 模型,使用了Kneser-Ney smoothing(KN4),总计用了3.1B的单词进行训练,词汇量为150k。3.1B数据有11个子语料库(sub-corpora)组成。小的语言模型(Small LMs)都是在每一个子语料库上训练,最后融合成一个模型。插值权重(interpolation weights)使用了SRILM在development text上进行了优化。Development和evaluation文本分别包含40k和36k个单词。

4.2基于神经网络的语言模型(NLMs)

所有的语言模型都是基于神经网络,用了50M的单词进行训练,50M的数据取自于自3.1B数据。NLMs的词汇的大小是128K;并且用了KN4进行重规范化(renormalization),以便于进行插值(interpolation)。在50M语料库中,这包含2M域内集合(in-domain set)。我们也对2M数据进行微调(fine-tuning)。训练是用SGD进行训练,前馈模型的mini-batches的大小是64。循环模型用时间方向上用反向传播,没有截断(without truncation),minibatch的大小是4,NLMs的输出层一直是1000个单词类别,所有的模型都实现了,作为rwthlm tookit的一个拓展。除了最大的LSTM(3层 600个结点),用GPU训练训练外,batchsize是8,其它的模型用CPU的多线程。

4.3. 基于文本的结果(Text-based Results)

4.3.1. Gates in MLP based models

我们训练的是20-gram模型,每个单词有300个单元的映射层,6000个单元的多栈式隐含层。我们既不使用层级训练(layer-wise training),也不用低秩分解(lowrank factorization)。所有的模型都使用logistic函数作为激励函数,指数线性单元(ELU)用于测试MLP的基线。所有的模型都微调了。

上表展示了2层具有不同类型层的模型的性能,在Sigm-HW映射层之后的第一层是一个标准的MLP层。不同类型的perplexities表现得几乎一样,Lateral网络表现的稍微好一点。为了评估深度模型的公路连接的效果,我们把层数增加到了5层。

表2展示了在develop集合下的Perplexities,首选,基准MLP在第四层的时候就接近饱和,知道5层的时候highway模型才退化。另外,公路模型相比于基准,性能提高了4%。Lateral在3层的时候饱和了,它的最佳perplexities相比highway model表现得稍微差一点,结果也表明了highway线性连接的重要性,因为lateral 网络仅仅是在公路网络连接上不一样(differs from the highway network in that connection.)。

4.3.2. LSTM 和GRU

如上表,我们比较了LSTM和GRU,size为200的时候,GRU表现的比LSTM稍微好一点,当深度增加的时候,LSTM表现的比GRU好:最终,最佳的perplexity是一个栈式的,2层LSTM.除此之外,这两种结构在2层之后出现了饱和,基本不怎么提升了。为了进一步改进perplexities,我们在最佳模型上进行微调,结果如表4:

4.3.3. Highway network based on GRU

为了评估highway 连接在RNNs的效果,我们评估了有GRU变换的highway network.我们堆叠到了4层这样的单元层(We stacked until four such layer)。

如表5,标准的GRU在超过2层的时候就退化了,而GRU-HW可以使得结构更深,取得了4%的提升。300个结点的时候,perplexities从110.7降到了106.3。当有500个结点,4层的时候,取了了5%的提升(Furtherimprovements of 5% rel),从104.7降到了99.1.

4.4. Lattice Rescoring Results

说实话,我还真不懂什么是lattice rescoring,不过结果已经展示出来了。至于解释的话,等我了解了这个模型之后再补上。

上表显示了模型中word error rate和perplexities,LSTM(600x2)的模型表现最佳,其次是GRU-HW(500x4)。

5. Attention for Learning Word Triggers

目前,我们关注的是基于神经网络的门的机制,乘法门的使用不是一个给网络部分赋予显式意思(give explicit meaning to parts of a neural network)的唯一方法。最近提出来的Attention机制学习了输入和每一个预测的关联。这种想法对语言模型的应用时有意义的:上下文下特定文字可以和特定的相关词的预测有关,像基于统计方法的多文字激发((multi-)word triggers),我们提出了我们在学习上初始的结果,关于在word triggers上用attention机制。

5.1. 模型描述

5.1.1. Attention layer

简单的attention机制可以定义为一层,在t时刻的输入是先前层的输出(x1,x2,…,xt),计算器在环境xt情况下的标量分数,结果分数向量s=(s1,…,st),输出是环境下的权重平均值。

5.1.2. Neural word trigger models, a naive approach

我们把这样的attention层插入到一个简单的3层网络:映射(projection),GRU,输出层。Attention层要么插入到projecion和GRU之间,要么插入到GRU和输出之间。实验结果表明,后一种方式不适合word trigger,因为在这样一个模型中,attention层GRU最新的输出,这可以被看做完全环境(full context)。因此,我们用前面的方式。

5.2. 结果

模型每层有300个结点,基于attention的trigger模型的perplexity为157.6,在同等数据的情况下,它的结果比KN4(163.0)好,但是比GRU的基准差(110.7,微调后115.7,如表3)。尽管他的全局perplexity相对较高,但是在一些句子中,我们得到了质量意义的出发(qualitativelymeaningful triggers)。

另外,和当前的基于统计的triggers不一样,自我触发的方式还不是很常见。而我们发现结果在质量上很有趣,但是在普通模型表现上还不是满意。在在分数函数中的弱依赖可能是这个原因。最近,还有更复杂的方法把attention机制用来增强LSTM语言模型上。

参考文献

[1]. Kazuki Irie, Zoltán Tüske, TamerAlkhouli, Ralf Schlüter, Hermann Ney:

LSTM, GRU, Highway and a Bit of Attention:An Empirical Overview for Language Modeling in Speech Recognition. INTERSPEECH2016: 3519-3523

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Detecting Text in Natural Image with Connectionist Text Proposal Network论文笔记
下一篇:营销头版:票价疯长,你还看得起电影吗?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~