3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿(3)

2023-01-11 15:25  量子位

那么在实际测试中,VALL·E的效果如何呢?

连环境背景音都能还原

根据已合成的语音效果来看,VALL·E能还原的绝不仅仅是说话人的音色。

不仅语气模仿到位,而且还支持多种不同语速的选择,例如这是在两次说同一句话时,VALL·E给出的两种不同语速,但音色相似度仍然较高:

3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿

同时,连说话者的环境背景音也能准确还原。

除此之外,VALL·E还能模仿说话者的多种情绪,包括愤怒、困倦、中立、愉悦和恶心等好几种类型。

值得一提的是,VALL·E训练用的数据集不算特别大。

相比OpenAI的Whisper用了68万小时的音频训练,在只用了7000多名演讲者、6万小时训练的情况下,VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS。

而且,YourTTS在训练时,事先已经听过108个演讲者中的97人声音,但在实际测试中还是比不过VALL·E。

3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿

有网友已经在畅想它可以应用的地方了:

不仅可以用在模仿自己的声音上,例如帮助残障人士和别人完成对话,也可以在自己不想说话时用它代替自己发语音。

当然,还可以用在有声书的录制上。

3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿

不过,VALL·E目前还没开源,要想试用可能还得再等等。

3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿

作者介绍这篇论文所有作者均来自微软,其中有三位共同一作。

3秒复制任何人的嗓音!微软音频版DALL·E细思极恐 连环境背景音也能模仿

一作Chengyi Wang,南开大学和微软亚研院联合培养博士生,研究兴趣是语音识别、语音翻译和语音预训练模型等。