Meta再放大招!VR新模型能像人一样“读”懂语音(3)

2022-07-01 15:23     腾讯

过去的去混响方法往往根据音频模式进行,这种方法并不能了解环境的完整声学特征。更多靠的是人类语音的先验知识,而没有考虑到周围的环境。

为了让这一过程与周围环境结合,需要融入更多的维度的信息,比如视觉信息。

结合了视觉信息的去混响模型称为「VIDA」, 根据观察到的声音和视觉流来学习去混响,这些视觉信息包括房间的几何形状、材料和音源位置等,这些都会影响在音频流中体现的混响效果。

有了这个思路,我们想从一个特定的地方获取混响的音频,并抽离房间的声效。

研究人员开发了一个大规模的训练数据集,使用真实的语音进行渲染。

通过虚拟和真实的图像上的演示表明,在语音增强、语音识别和说话人识别等任务上,VIDA实现了SOTA性能,比传统的纯音频方法有了很大的提升。这对AR和VR应用中建立现实体验是非常重要的。

VisualVoice:通过看和听,理解语音

在复杂环境下,人类比AI更能理解语音的含义,因为我们不仅使用耳朵,还使用眼睛。

例如,我们看到某人的嘴在动,可能凭直觉就知道我们听到的声音一定是来自这个人。

Meta AI正在研究新的AI对话系统,就是要让AI也学会这种本事,识别在对话中看到的和听到的东西之间的细微关联。

VisualVoice的学习方式类似于人类学习掌握新技能的方式,通过从未标记的视频中学习视觉和听觉线索,实现视听语音分离。

对于机器来说,这创造了更好的感知,同时人类的感知力也会得到改善。

想象一下,能够与来自世界各地的同事一起参加元宇宙中的小组会议,随着他们在虚拟空间中的移动,加入更小的小组会议,期间,场景中的声音混响和音色会根据环境做出相应调整。

的确,现在的AI 模型在视频和图像理解方面做得很好。

但要让用户有「很哇塞」声如其境的体验,我们需要「多模式的 AI 模型」。

也就是可同时获取音频、视频和文本信息,并更具有丰富的环境理解的模型。

目前AViTAR 和 VIDA 目前仅支持单个图像,离推向市场还存在距离。

「未来我们希望尝试使用视频和其他动态来捕捉空间的声学特性。这将帮助我们更接近我们的目标,即创建了解现实世界环境以及人们如何体验它们的多模式 AI」。

频道热点
更多
今日关注
更多