那么在实际测试中,VALL·E的效果如何呢?
连环境背景音都能还原
根据已合成的语音效果来看,VALL·E能还原的绝不仅仅是说话人的音色。
不仅语气模仿到位,而且还支持多种不同语速的选择,例如这是在两次说同一句话时,VALL·E给出的两种不同语速,但音色相似度仍然较高:
同时,连说话者的环境背景音也能准确还原。
除此之外,VALL·E还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型。
值得一提的是,VALL·E训练用的数据集不算特别大。
相比OpenAI的Whisper用了68万小时的音频训练,在只用了7000多名演讲者、6万小时训练的情况下,VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS。
而且,YourTTS在训练时,事先已经听过108个演讲者中的97人声音,但在实际测试中还是比不过VALL·E。
有网友已经在畅想它可以应用的地方了:
不仅可以用在模仿自己的声音上,例如帮助残障人士和别人完成对话,也可以在自己不想说话时用它代替自己发语音。
当然,还可以用在有声书的录制上。
不过,VALL·E目前还没开源,要想试用可能还得再等等。
作者介绍这篇论文所有作者均来自微软,其中有三位共同一作。
一作Chengyi Wang,南开大学和微软亚研院联合培养博士生,研究兴趣是语音识别、语音翻译和语音预训练模型等。