作者:Wenlong Huang, Yu-Wei Chao, Arsalan Mousavian, Ming-Yu Liu Dieter Fox, Kaichun Mo, Li Fei-Fei

单位:Stanford University,NVIDIA

会议:2026 Arxiv

研究动机

  1. 对于通用机器人而言,在非结构化环境中进行世界建模是至关重要的
  2. 基于物理的模型 : 预测精准,但面临“虚实差距 ”,且需要针对特定环境进行繁琐的建模。
  3. 基于学习的动力学模型: 虽然能从交互中学习,但通常依赖于特定领域的归纳偏置
  4. 视频生成模型: 虽然能生成逼真的视觉效果(如 Sora 等),但缺乏明确的动作条件控制,且在物理一致性上往往表现不佳

核心方法

pw-1

1.利用Point Flow对状态动作进行统一的建模

pw-2

2.对静态动态点的Loss进行加权处理,对noise points预测uncertainty

pw-3

3.构造三维动力学建模数据集

pw-4

数据集

  • DROID
  • BEHAVIOR-1K

算力

128张H100

实验结果

pw-5

pw-6

pw-7

pw-8

pw-9

pw-10

优势与不足

优势

  1. 统一三维表示,具身无关,提高推理速度
  2. 构造了高质量的数据集

不足

  1. 无法拓展至软体机器人设置
  2. 模型只预测点的位置移动,不预测颜色或光照变化
  3. 无法解偶外部干扰

记忆点

  1. multi-step 状态更新

  2. 统一Point Flow表示