Speech recognition模型：MoChA（Monotonic Chunkwise Attention)-CSDN博客

本文链接：https://blog.csdn.net/u014765410/article/details/127362246

一，NT（Neural Transducer) 和 MoChA 均为 input 一把acoustic feature，然后进行输出的模型，在此，以NT为引，引入MoChA。
NT的模型结构如下图所示，其工作机理是，给定一定长度的window，依次框定该长度（数量）的acoustic feature，然后进行encode，在用decoder解码，输出token，直到输出null为止，将window顺移，开始下一step的decode工作。

二，MoChA
与NT相比，MoChA中，window的长度是可变的，每一个step中，window的长度由一个model决定。该模型的工作原理如下：给定zi，以及acoustic feature，将其进model，判断window是否停止生长，如果为否，则继续将zi和下一个acoustic feature输入model，判断window是否生长，如果为否，则停止生长，将之前的所有acoustic featue都框到window中，进行encode，decode。
需要注意的是，这里zi的产生，除z0为初始化值外，其他的zi均是由前一个zi-1 以及第i step中window里的acoustic feature进模型产生。

MoChA 与 NT的另外一个不同点在于，MoChA中，一个window只decode一个token，没有null这一说。