Meta再放大招！VR新模型能像人一样“读”懂语音

过去的去混响方法往往根据音频模式进行，这种方法并不能了解环境的完整声学特征。更多靠的是人类语音的先验知识，而没有考虑到周围的环境。

为了让这一过程与周围环境结合，需要融入更多的维度的信息，比如视觉信息。

结合了视觉信息的去混响模型称为「VIDA」，根据观察到的声音和视觉流来学习去混响，这些视觉信息包括房间的几何形状、材料和音源位置等，这些都会影响在音频流中体现的混响效果。

有了这个思路，我们想从一个特定的地方获取混响的音频，并抽离房间的声效。

研究人员开发了一个大规模的训练数据集，使用真实的语音进行渲染。

通过虚拟和真实的图像上的演示表明，在语音增强、语音识别和说话人识别等任务上，VIDA实现了SOTA性能，比传统的纯音频方法有了很大的提升。这对AR和VR应用中建立现实体验是非常重要的。

VisualVoice：通过看和听，理解语音

在复杂环境下，人类比AI更能理解语音的含义，因为我们不仅使用耳朵，还使用眼睛。

例如，我们看到某人的嘴在动，可能凭直觉就知道我们听到的声音一定是来自这个人。

Meta AI正在研究新的AI对话系统，就是要让AI也学会这种本事，识别在对话中看到的和听到的东西之间的细微关联。

VisualVoice的学习方式类似于人类学习掌握新技能的方式，通过从未标记的视频中学习视觉和听觉线索，实现视听语音分离。

对于机器来说，这创造了更好的感知，同时人类的感知力也会得到改善。

想象一下，能够与来自世界各地的同事一起参加元宇宙中的小组会议，随着他们在虚拟空间中的移动，加入更小的小组会议，期间，场景中的声音混响和音色会根据环境做出相应调整。

的确，现在的AI 模型在视频和图像理解方面做得很好。

但要让用户有「很哇塞」声如其境的体验，我们需要「多模式的 AI 模型」。

也就是可同时获取音频、视频和文本信息，并更具有丰富的环境理解的模型。

目前AViTAR 和 VIDA 目前仅支持单个图像,离推向市场还存在距离。

「未来我们希望尝试使用视频和其他动态来捕捉空间的声学特性。这将帮助我们更接近我们的目标，即创建了解现实世界环境以及人们如何体验它们的多模式 AI」。

Meta再放大招！VR新模型能像人一样“读”懂语音(3)