3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿

具体来说，传统语音合成流程往往是"音素→梅尔频谱（mel-spectrogram）→波形"这样的路子。

但VALL·E将这一流程变成了"音素→离散音频编码→波形"：

具体到模型设计上，VALL·E也和VQVAE类似，将音频量化成一系列离散tokens，其中第一个量化器负责捕捉音频内容和说话者身份特征，后几个量化器则负责细化信号，使之听起来更自然：

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿

随后以文本和3秒钟的声音提示作为条件，自回归地输出离散音频编码：

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐连环境背景音也能模仿

VALL·E还是个全能选手，除了零样本语音合成，同时还支持语音编辑、与GPT-3结合的语音内容创建。

3秒复制任何人的嗓音！微软音频版DALL·E细思极恐 连环境背景音也能模仿(2)