端到端(End-to-end,E2E)模型得益于其简洁的模型结构和优异的模型性能,已经成为各种序列到序列任务中的主导模型,如机器翻译(Neuralmachinetranslation,NMT)、语音识别(Automaticspeechrecognition,ASR)等。然而,这些模型大多遵循自回归(Autoregressive,AR)的策略,即利用已经生成的字符和输入序列为条件,进而预测目标字符。这种运算方式使得模型很难进行并行预测,从而带来巨大的推理延迟。相比于AR模型,非自回归(Non-autoregressive,NAR)模型致力于摆脱这种时序依赖性,从而进行并行预测。NAR模型的核心想法是在一个恒定的迭代次数内预测整个目标序列,该迭代次数应远小于目标序列的长度。
西工大音频语音与语言处理研究组(ASLP
NPU)一直