3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿

那么在实际测试中，VALL·E的效果如何呢？

连环境背景音都能还原

根据已合成的语音效果来看，VALL·E能还原的绝不仅仅是说话人的音色。

不仅语气模仿到位，而且还支持多种不同语速的选择，例如这是在两次说同一句话时，VALL·E给出的两种不同语速，但音色相似度仍然较高：

同时，连说话者的环境背景音也能准确还原。

除此之外，VALL·E还能模仿说话者的多种情绪，包括愤怒、困倦、中立、愉悦和恶心等好几种类型。

值得一提的是，VALL·E训练用的数据集不算特别大。

相比OpenAI的Whisper用了68万小时的音频训练，在只用了7000多名演讲者、6万小时训练的情况下，VALL·E就在语音合成相似度上超过了经过预训练的语音合成模型YourTTS。

而且，YourTTS在训练时，事先已经听过108个演讲者中的97人声音，但在实际测试中还是比不过VALL·E。

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿

有网友已经在畅想它可以应用的地方了：

不仅可以用在模仿自己的声音上，例如帮助残障人士和别人完成对话，也可以在自己不想说话时用它代替自己发语音。

当然，还可以用在有声书的录制上。

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿

不过，VALL·E目前还没开源，要想试用可能还得再等等。

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿

作者介绍这篇论文所有作者均来自微软，其中有三位共同一作。

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿

一作Chengyi Wang，南开大学和微软亚研院联合培养博士生，研究兴趣是语音识别、语音翻译和语音预训练模型等。

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐 连环境背景音也能模仿(3)