具体来说,传统语音合成流程往往是"音素→梅尔频谱(mel-spectrogram)→波形"这样的路子。
但VALL·E将这一流程变成了"音素→离散音频编码→波形":
具体到模型设计上,VALL·E也和VQVAE类似,将音频量化成一系列离散tokens,其中第一个量化器负责捕捉音频内容和说话者身份特征,后几个量化器则负责细化信号,使之听起来更自然:
随后以文本和3秒钟的声音提示作为条件,自回归地输出离散音频编码:
VALL·E还是个全能选手,除了零样本语音合成,同时还支持语音编辑、与GPT-3结合的语音内容创建。