Meta再放大招!VR新模型能像人一样“读”懂语音

2022-07-01 15:23     腾讯

畅游元宇宙,连音画不匹配那还算VR?Meta最近就盯上了这个问题。|人工智能企业在找落地场景?--智能技术企业科技信用评级共识体系发布会7月2日给你解答!

一提到AR、VR体验,声音体验都是最重要的一环。

无论是在元宇宙的party上狂欢,还是戴着增强现实 (AR) 眼镜在客厅看家庭电影,声效对用户的沉浸式体验都至关重要。

这不,Meta AI与Meta Reality Lab的音频专家联手,并与德克萨斯大学奥斯汀分校的研究人员合作,共同推出三个开源模型,用于对视频中人声和环境声的同步解析。

「我们正尝试建立这样的MR与VR场景,我们相信人工智能将为每个沉浸式环境提供相匹配的音质」他们说。

人体所处的物理环境不同,人耳所感知的声觉效果也不同。

例如,音乐会在大型场地和客厅的声音有很大的不同。这是因为物理空间的几何形状、该区域的材料和表面,以及声音来自何处的接近度,都影响了我们听到音频的方式。

因此,就需要AI模型来了解我们的环境信息,从而对声觉与视觉信息进行匹配。

Meta的这项研究主要包括三个模型,分别是视觉声觉匹配模型(Visual Acoustic Matching model)、基于视觉的去混响模型(Visually-Informed Dereverberation)、音视频分离模型(Visual Voice)。

同时,这次研究成果还在CVPR 2022论坛上发表5分钟演讲,这也就是TOP5含金量的论文才有这待遇。

首先,视觉声觉匹配模型可将视频中的音频转换为目标环境中的声觉效果,给定目标环境的图像和源音频的波形,模型就可以重新合成音频以匹配目标房间的声学。

然后就是我们基于视觉的音频去混响模型 (VIDA),它可根据观察到的声音和视觉场景来学习消除混响。

而Visual Voice模型则可跨模型将视频中的音频与视频分离。

下面是这些模型的具体操作流程。

视觉和声音的完美盛宴

众所周知,音频与场景不一致的视频,会十分损伤我们的感知。

在过去,从不同的环境中获取音频和视频,并进行匹配,一直是一个挑战。

声学仿真模型可用于生成房间脉冲响应,以重新创建房间的声学效果,但这只有在几何形状(通常以 3D 网格的形式)和空间的材料属性已知的情况下才能完成。不过,在大多数情况下,这些信息是无从获取的。

当然,我们也可以仅根据在特定房间中捕获的音频来估计声学特性,但通过这种方式,只能获取十分有限的声学信息,而且通常不会产生很好的结果。

为了解决这些挑战,研究人员创建了一个自监督的视觉声学匹配模型,称为AViTAR。

今日关注
更多