视觉中的生成物理人工智能:综述

2025-03-22ASPCMS社区 - fjmyhfvclm

今天分享的是:视觉中的生成物理人工智能:综述

报告共计:18页

《视觉中的生成物理人工智能:综述》系统回顾了计算机视觉中融入物理感知的生成式人工智能领域的研究进展,涵盖模型、方法、评估及未来方向,旨在推动基于物理基础的视觉生成技术发展。

1. 引言:生成式学习在计算机视觉领域发展迅速,扩散模型等的出现提升了生成内容的真实性。视频生成作为更具挑战性的任务,有望成为“世界模型”,但当前模型缺乏对真实世界物理的理解,本文聚焦于将物理感知融入生成模型的研究。

2. 物理感知生成的定义与范式:定义了物理模拟、物理理解和生成的概念,将物理感知生成分为显式物理模拟(PAG-E)和无显式物理模拟(PAG-I)两类。PAG-E又包含生成到模拟、模拟在生成中、生成和模拟同时进行等多种范式。

3. 物理模拟相关要素:介绍物理模拟中常用的材料,如刚体、软体等,以及对应的物理参数。同时阐述了连续介质力学方法、有限元法等模拟方法,和Bullet Physics、Havok Physics等物理引擎与平台。

4. 物理理解的实现途径:在物理感知生成中,获取物理参数的方法有手动设置、自动学习和通过大语言模型推理。手动设置缺乏可扩展性,自动学习基于数据驱动,大语言模型推理则借助文本和视觉信息推断物理参数。

5. 物理感知生成的模型与方法:介绍了生成对抗网络、扩散模型、神经辐射场和高斯 splatting 等常用生成模型。PAG-E通过不同范式结合物理模拟与生成模型,如PIE-NeRF在NeRF场景中添加物理模拟;PAG-I中,大型视频模型展现出一定物理推理能力,还有通过大语言模型和生成交互式动力学提升物理感知的方法。

6. 物理评估方法:传统评估指标难以有效评估生成模型的物理常识,为此出现了PhyBench、PhyGenBench等基准测试和基于人类评估、自动评估(如LVMs/LLMs模型评分、计算专门定量分数)的评估指标。

7. 未来研究方向:未来可通过将生成模型与物理引擎结合、融入任务导向评估等方式更好地评估物理感知;利用物理感知机制提升模型可解释性;增强基础模型的物理理解;发展神经符号混合模型和生成式模拟引擎;在机器人和具身AI等领域深入应用。

以下为报告节选内容

报告共计: 18页

中小未来圈,你需要的资料,我这里都有!

全部评论