思必驰俞凯：端到端与半监督语音识别的技术进展

雷锋网按：如何低成本高效率地利用少量带标注的数据，挖掘大量语音数据中的有效信息，半监督学习正成为当下研究趋势之一。在这种趋势背景下，端到端的训练方法也正尝试结合预训练或先验知识，投入在语音识别网络的探索中。

在8月8日的CCF-GAIR 2020全球人工智能与机器人大会·前沿语音技术专场上，俞凯教授分享了端到端和半监督学习技术在语音识别问题中的最新研究思路及进展。

思必驰俞凯：端到端与半监督语音识别的技术进展 | CCF-GAIR 2020

简介：俞凯，上海交通大学计算机系教授，思必驰创始人之一、首席科学家。俞教授长期从事对话式人工智能的研究和产业化工作，获得过多个国际期刊及会议优秀论文奖和研究评测冠军，还入选为国家级人才项目、优青，上海市“东方学者”特聘教授。

俞教授指出，在深度学习发展以来，语音识别研究领域现在所面临的问题，除了在工程技巧和数据对接上做一些工作之外，最重要的事情是长尾的非配合语音识别。

其中，具备高效率的高精度系统和高质量的精准大数据构建是两个比较重要的进展和趋势。

一是具备高效率的高精度系统。高精度语音识别在前几年已经超过人的识别，但是高精度语音识别在长尾上仍有很多工作值得研究。很重要的一点是，现在大家的关注点由一般意义的高精度语音识别变成高效率的语音识别。如何在保持高精度的同时，还要保证系统构建和复杂度、响应速度、规模化能力和灵活性都必须同等提高，这是目前端到端语音识别引起很大兴趣的原因。

二是高质量精准大数据。大数据很有用，但有了大数据，精度就能提高吗？其实并非如此，越来越多的人发现真正的大数据应该是结构上的大，而不仅仅是数量上的大，也就是要在声学因素的分布、监督信号获取和识别系统适配方面，有高质量的精准数据。于是，也就出现了很多半监督、生成式的数据扩充方法。

何为端到端，以及为什么需要端到端？

在俞教授看来，传统的识别框架是结构不同的模型模块组成，称之为异构识别系统。首先，它本质上不是统一的参数化模型，中间需要WFST解码器，对各个模块分别建模训练；其次，声学、语言、字典等模型的类型和结构本质上完全不同，且解码器是不可缺少的连接模块信息的核心，需要构建复杂的搜索网络。

端到端识别框架不同之处在于，在大数据的背景下，能通过完整神经网络实现声学信号到识别结果的直接映射，各个组成部分是“同构”的。今天报告中谈到的端到端更多指的是，直接或简单转换后输出结果是“词序列”。

从优势上讲，端到端能够降低复杂度，减少参数量（不是声学上的减少，有神经网络语言模型的参数来描述语言空间），从而使得训练的流水线得以简化。其次，大数据资源的使用更为简单，数据驱动更为友好；此外，搜索解码速度加快，但是否真的需要构建搜索网络，俞教授指出，这项研究目前存在争议。

端到端的定义与分类

端到端主要分为两类，一类是同步框架，另一类是异步框架，主要解决语音识别的两个基本问题：分类与对齐。解决“对齐”问题通常采用的思路包括：马尔可夫模型（HMM）、标签填充、序列解码网络等方法。其中，后两种是端到端中比较常用的方法。

同步端到端框架采用的是，与输入同步逐帧输出，通过引入blank标签实现变长序列对齐；异步端到端框架采用的是，输入与输出使用两个网络分别处理，使用attention（注意力机制）解决对齐问题。

同步端到端框架最典型的就是CTC和RNN-T：前者通过引入相应的标签填充，同时在条件独立性假设上，每一帧输出之间条件独立，而后者没有条件独立性的假设。

随后，俞教授详细讨论了异步端到端存在的研究价值和争议。

俞教授表示，异步端到端最大的特点是输出与输入没有统一的时钟，是两个不同的网络。

在encoder-decoder架构上，encoder对整体输入序列提取所有信息，然后根据输出的要求再进行输出，时钟和输出标签是逐词进行的。这时，会通过attention的方式处理对齐。一般情况下，输出序列的个数会远远小于时间帧的个数，这种情况下，输出序列信息速率会远低于输入信息速率，beam搜索效率会变得很高。

不少研究指出，异步端到端的识别精度会优于同步端到端模型（上文讲到的CTC 、RNN-T），但这目前也是存在争议的。

端到端的问题与挑战

即便端到端存在一定优势，但问题在于，类似于encoder-decoder这样的架构，实时响应迟延可能会变长；同时，端到端的提出主要是在声学数据上的训练，对语言数据使用的讨论不够充分，直到最近才有一些新的工作。那么，端到端具体会有怎样的挑战？

一是在线编码的迟延问题。

这种情况下双向的神经网络无法使用，只能用单向网络，这就造成输入的信息变少。这时，如果通过注意力机制进行在线化解码，从而得到即时的、短迟延识别结果，就会变得非常有挑战性。

二是文本资源及语言空间的约束问题。端到端模型需要有标注语音数据，而最开始研究端到端时，用到的是声学模型的数据，并没有用到大规模文本语料。

为此，俞教授指出，当下解决端到端的在线解码迟延问题，已有的思路主要有三类：一是固定短时窗口预测（Neural Transducer）；二是基于单帧触发的变长窗口方法（MoChA，Triggered Attention）；三是基于多帧累计触发阈值的方法（Adaptive Computing Steps）。其本质都是只用历史信息或非常小的前探信息。

再回来上文所提到的，早期的端到端模型是融合声学语料文本的超大声学模型，它并不包括语言模型，那么海量的文本数据如何使用？

当前端到端框架下的文本数据使用的解题思路主要有三种：一是模型融合（Fusion）——将文本数据训练的神经网络LM，在decoder输出层进行插值融合；二是语言模型模块嵌入——将端到端系统的部分网络作为LM建模，允许额外文本数据训练更新；三是半监督训练——利用文本数据做端到端模型训练的数据扩充（无显示的语言空间建模）。

从海量数据到高质量精准大数据

想要从海量数据中提取到高质量、精准的大数据，最大的挑战在于没有监督信号、标注起来也很难。解决该问题主要会运用到三个思想：一是自监督预训练，二是半监督训练，三是使用生成数据训练。

首先是自监督预训练，这种思路下数据自身就是标注，不需要额外标注，这与自然语言处理使用词序列作为标注，设计一些训练任务使得能够提取比较好的预训练特征是比较一致的方法。比较典型的是wav2vec或结合了预训练模型BERT的方法，以及重构任务DecoAR。

其次是半监督训练，可以是海量无标注音频或海量文本加适量有标注音频的方式。大体思路也有三种：置信度选择、先验知识蒸馏、音频文本一致性训练。

在报告最后，俞教授还表达了对精准的环境数据扩充及语音合成研究方向的看好。对于语音合成，俞教授认为合成语音数据的难点在于，不同于语音识别，语音合成是一个信息增加的过程，这个过程需要解决的问题会更为复杂，往往这种“无中生有”的过程基本上是通过引入生成模型进行解决。比方说，在低资源数据下使用VAE建模说话人空间，或者不使用句子级的VAE，而是通过逐个phone的音频提取隐变量序列z。这些都是当下比较主流的解决问题的思路。

（雷锋网(公众号：雷锋网)雷锋网）

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

（完）