当前位置：首页 > RPA最新资讯 > AI视角 > 可为人体生成3D空间音频，上海AI实验室、Meta开源创新模型

可为人体生成3D空间音频，上海AI实验室、Meta开源创新模型

suntingting 发布于 2023-11-29 12:45:50
分类：AI视角
来源：
阅读()
评论()

最新研究表明,准确建模人类的3D空间音频与视觉场景的匹配,是实现虚拟环境沉浸感和临场感的关键。但多数学术界和企业目前只专注于视觉方面,而忽略了同样重要的听觉。

为了加速3D空间音频的研发进程，上海AI实验室和Meta联合开发了一种可为人体生成3D空间音频模型将其开源。

据悉该模型使用了头戴式麦克风的音频信号以及人体姿态作为输入,输出包围发声人身体的三维音场,从而可以在三维空间的任意位置渲染出空间音频。

论文地址：https://arxiv.org/abs/2311.06285

开源地址：https://github.com/facebookresearch/SoundingBodies

从技术层面来看，要开发一个3D空间音频模型并不容易，主要面临三大技术难题。1)音源位置未知,系统需要区分一些细微的身体动作声,判断声音来自左手还是右手；

2)麦克风距离音源较远,无法直接获取音源信号;3)语音和身体动作声混合在一起,无法进行分离。

为了解决这些问题,研究人员构建了一个多模态融合模式,并加入身体姿态信息来消除声源的位置歧义,以生成正确的空间音频。

音频编码器

该模块的作用是处理来自头戴式麦克风的输入音频信号。通常我们想要模拟VR场景,用户需要戴着头盔,而音频是来自头盔上的麦克风。

输入音频包含语音和身体动作产生的各种声音,比如手拍、脚步声等。音频编码器的技术原理是首先根据可能的音源位置(比如不同的身体部位),对输入音频进行时间平移对齐。

然后把时间对齐后的多个音频信号在通道维度上拼接在一起,传入一个全连接层,得到最终的音频特征表达。这种机制的好处是包含了来自各个可能音源位置的音频信息。

人体姿态编码器

主要作用是分析输入的人体姿态关键点,并生成姿态特征表达。当一个人产生音频的时候,他的身体动作会提供音源位置的强烈提示,例如，拍手声就是来自手部位置。所以人的姿态序列对生成正确的三维空间音频非常重要。

具体来说,首先获取身体各个关键点的三维坐标信息,然后通过卷积网络学习生成每个关节点的特征表达。最后将所有关节点的特征在通道维度上拼接,传入多层全连接网络,得到最终的姿态特征。

音频解码器

这个模块是基于以上获得的音频和姿态特征,以及想要生成的三维目标位置,预测这个位置的音频输出。所以，该解码器包含多个解码层。

同时, 每个解码块都包含卷积层、门控层和残差连接,可以捕获音频的长时序上下文。同时,解码块通过条件输入,结合音频特征、姿态特征和目标位置编码,来生成三维目标位置的音频输出。

通过这种多模态特征解析和逐步上采样,系统最后可以扩展到整个三维空间,合成身临其境的3D音场效果。

尽管该模型在3D空间音频生成方面实现了技术突破，为建立真正沉浸式的虚拟人类迈出了关键一步。但研究人员表示，目前仅适用于渲染人体音,无法处理非自由音场传播环境，因为计算量较大,难以部署到资源受限的消费类设备上。

本文素材来源上海AI实验室论文，如有侵权请联系删除

继续阅读：

未经允许不得转载：RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > 可为人体生成3D空间音频，上海AI实验室、Meta开源创新模型

相关推荐

热门信息

阅读 (14728)
1 2023第三届中国RPA+AI开发者大赛圆满收官&获奖名单公示
阅读 (13753)
2 《Market Insight：中国RPA市场发展洞察（2022）》报告正式发布 | RPA中国
阅读 (13055)
3 「RPA中国杯 · 第五届RPA极客挑战赛」成功举办及获奖名单公示
阅读 (12964)
4 与科技共赢，与产业共进，第四届ISIG中国产业智能大会成功召开
阅读 (11567)
5 《2022年中国流程挖掘行业研究报告》正式发布 | RPA中国

快速导航