听微软小冰唱粤语歌会是一种怎样的体验？

想必你一定听过最近大火的"AI女团"，7月10日，微软小冰携手小米小爱、B站冷鸢、百度小度首次集体亮相世界人工智能大会，以一首AI歌曲《智联家园》正式“出道”。

AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger

AI女团的首场演唱会可谓惊艳全场。从整首歌的歌词、卡点、节奏来看，这首《智联家园》演唱得不亚于专业音乐团队。如果只听音乐，恐怕很难分辨出这是AI生成的歌声。

我们知道，歌声不同于正常人的语音，高低音转换，BGM的配合，有着更复杂的模式和节奏，这对于AI来说并不是一件容易的事儿。

不过，最近一个研究团队，却此基础上挑战了更高阶的AI技术——生成多种语言风格的AI系统。据了解，这个团队成员正是来自浙江大学和微软研究院的六名研究员，他们研发出了一款名为DeepSinger的AI模型，可以演唱中文、英文，甚至粤语歌曲。

目前这项研究论文《DeepSinger.Singing Voice Synthesis with Data Mined Frome the Web》已经发表在了预印论文库arXiv上。

中文、英文、粤语，教什么会什么的AI

具体来说，DeepSinger是一款音乐歌声合成系统（Singing voice synthesis ），该系统利用专门设计的组件可以从嘈杂的歌唱数据中捕获歌手的音色，从而生成多种语言风格的演唱声音。

论文中，研究人员用中文、英文、粤语三种语言进行了试验，并用训练后得出的不同音色演唱了这首《Far Away Of Home》。可以先点击下方链接，听一下演唱效果：

AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger

点击链接收听：https://venturebeat.com/2020/07/13/microsofts-ai-generates-voices-that-sing-in-chinese-and-english/

研究人员称，对于影视从业者来说，DeepSinger会是一个非常实用的工具。当他们完成某些语音类录制工作后，如果发现录制错误，可以用AI辅助语音的合成和修复，而无需再次返工。不过，这款工具也存在一些弊端。就像换脸软件Deepfake可以合成不存在的人像一样，这款DeepSinger同样可以假冒歌手伪造音乐。

AI多语言歌声合成原理

在机器学习领域，从文本到语音（TTS）的转换有着广泛的使用场景，一直是研究的重点领域。如上文所说，歌曲的韵律和环境比语音更具复杂性，因此，SVS相比于TTS的研究也更有挑战性。

研究人员介绍，此次生成多种语言风格的歌声合成系统DeepSinger，采用了一种含多个数据挖掘和数据建模步骤的研究路径，优化了现有研究的很多困境。这个路径可以分为以下五个步骤：

AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger

数据检索（Data crawling）负责从音乐网站抓取顶级歌手多种语言的流行音乐；这里抓取的是中、英、粤三种语言的歌曲，时长一般为1-5分钟。此阶段，需要对数据集进行初级的过滤和清洗。
唱歌和伴奏分离（Singing and accompaniment separation）：采用开源音乐分离工具Spleeter，从伴奏中提取歌声，然后将音频逐个拆分为句子；
歌词和歌唱对齐（Lyrics-to-singing alignment）：自动提取歌词中每个音素的持续时间（从粗粒度的句子级别到细粒度的音素级别）。
数据筛选（Data filtration）：对歌词与演唱未对齐的歌声进行再处理。
这里采用分离奖励（Splitting Reward）作为过滤标准，过滤掉分离奖励低于阈值的数据。
演唱模型（Singing modeling）：通过数据爬取，分离，对齐和过滤之后，基于FastSpeech对唱歌数据进行建模。该模型将歌词，时长，音高信息以及参考音频作为输入来生成歌声。
点击链接：https://speechresearch.github.io/deepsinger/可收听不同阶段，AI生成歌声音频。

从最终的测试结果可以看出，未经训练的音频和经过DeepSinger模型的音频，在音调、振幅、持续时长上基本吻合；（GT表示真实音频波形图，DeepSinger表示经过模型训练后的音频波形图）

AI唱歌不仅中英文无压力，还会粤语！微软联手浙大研发出DeepSinger

论文中表明，通过歌词，持续时间，音调信息、参考音频等指标的验证，DeepSinger在合成音调准确度和“声音自然度”方面表现出了不错的性能。从数据来看，中英粤语三首歌曲的音高、音准都超过了85％。而且，在一项20人的用户实验中，DeepSinger生成的歌曲与原始培训音频之间的平均差距仅为0.34-0.76。

另外，更值得注意的是，经过数据检索和初级筛选，Singing所使用数据集仅包含89位歌手演唱的92个小时的歌曲。

我们知道，在机器学习中数据集的质量和数量是关键，但也正是在这两个方面往往存在难点。而在本次试验中仅使用了一个小样本即达到不错的性能表现。另外，歌曲和歌词的自动对齐模型在很大程度上也减少了数据标标注带来的失误和成本。

不过，研究人员表示，接下来他们计划使用基于WaveNet模型等更为复杂的AI技术，在DeepSinger中训练各种子模型，以提高语音质量。WaveNet是Googel研发的一款语音驱动模型。