雷锋网消息,在 12 月 8 日至 14 日于温哥华召开的机器学习顶会之一 NeurIPS 2019 会议上,微软和浙江大学研究人员介绍了文本-语音模型 FastSpeech,该模型可大幅提升文本语音转换过程中梅尔谱的生成速度,语音生成速度比基线快 38 倍。
雷锋网(公众号:雷锋网)注:【 图片来源:VentureBeat 所有者:VentureBeat 】
目前,Google Assistant 语音助手及最近出现在 Alexa 和 Amazon Polly 服务中的新闻播音员的语音乍听上去几乎与人声无异。事实上,这些语音助手都是由文本-语音模型提供支持的。
在当下,基于神经网络的端到端文本-语音合成技术发展迅速,大多数模型的合成方法为:从文本生成梅尔谱(Mel-Spectrogram,即一种展示声音功率的光谱图),然后使用声码器(分析和合成语音信号的编解码器)合成语音。
但是,这种合成方法存在着一些不可避免的问题,主要包括:
速度慢:端到端模型通常以自回归方式生成梅尔谱,再通过声码器合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢;
稳定性差:序列生成的错误传播及注意力对齐不准,会导致出现重复吐词或漏词现象;
缺乏可控性:自回归的神经网络模型自动决定一条语音的生成长度,不易控制语速或韵律停顿等。
为解决这些问题,微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种新的机器学习模型 FastSpeech,并在论文《FastSpeech:快速、强大且可控的文本-语音模型》中详细介绍了该模型。另外,值得一提的是,该论文已被温哥华 NeurIPS 2019 会议录用。
【 图片来源:论文 】
与其他文本-语音模型相比,FastSpeech 模型架构较为独特,且有着更佳的性能(其梅尔谱生成速度比基线快 270 倍,语音生成速度比基线快 38 倍)。不仅如此,它还能够避免了单词跳过等错误,还支持精细调整语速和单词中断。
更为重要的是,FastSpeech 包含长度调节器,可协调梅尔谱序列和音素序列(即感知度不同的声音单位)之间的差异。
简单来讲,由于音素序列的长度总是小于梅尔谱序列长度,一个音素对应多个梅尔谱。而长度调节器会根据持续时间,扩展音素序列以匹配梅尔谱序列长度(一个补充时长预测器组件确定一个音素的时长)。 增加或减少与音素或音素持续时间匹配的梅尔谱数目,可成比例地调整语音速度。
【 图片来源:论文 】
为验证 FastSpeech 的有效性,研究人员将其与开源的 LJ Speech 数据集进行了对比,该数据集包含 13100 个英语音频片段(相当于 24 个小时的音频)和相应的文本转录。在将数据集随机分成用于训练的 12500 个样本、用于验证的 300 个样本和用于测试的 300 个样本后,他们对语音质量、稳定性等进行了一系列评估。
论文中,研究团队主要从语音质量(audio quality)、生成速度(inference speedup)、稳定性(robustness)和可控性(controllability)等方面评估 FastSpeech 模型的性能。
研究团队表示,FastSpeech 的质量几乎与谷歌的 Tacotron 2 文本-语音模型相当,在稳定性上轻松超过主流的 Transformer 模型。同时,与基线的 34% 有效错误率相比,FastSpeech 的有效错误率为零。(但不可否认的是,其稳定性测试只涉及 50 个语义复杂的句子) 此外,FastSpeech 能在保持准确度的前提下,将生成的语音速度从 0.5 倍变为 1.5 倍。
因此,研究团队表示,FastSpeech 兼具快速、鲁棒、可控等特点。
【 图片来源:论文 】
论文的最后,研究团队也提到,未来将把 FastSpeech 和速度更快的声码器组合成单一模型,提供完全端到端的文本-语音解决方案。
via VentureBeat,雷锋网编译。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。