PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation
作者:Wenlong Huang, Yu-Wei Chao, Arsalan Mousavian, Ming-Yu Liu Dieter Fox, Kaichun Mo, Li Fei-Fei
单位:Stanford University,NVIDIA
会议:2026 Arxiv
研究动机
- 对于通用机器人而言,在非结构化环境中进行世界建模是至关重要的
- 基于物理的模型 : 预测精准,但面临“虚实差距 ”,且需要针对特定环境进行繁琐的建模。
- 基于学习的动力学模型: 虽然能从交互中学习,但通常依赖于特定领域的归纳偏置
- 视频生成模型: 虽然能生成逼真的视觉效果(如 Sora 等),但缺乏明确的动作条件控制,且在物理一致性上往往表现不佳
核心方法

1.利用Point Flow对状态动作进行统一的建模

2.对静态动态点的Loss进行加权处理,对noise points预测uncertainty

3.构造三维动力学建模数据集

数据集
- DROID
- BEHAVIOR-1K
算力
128张H100
实验结果






优势与不足
优势
- 统一三维表示,具身无关,提高推理速度
- 构造了高质量的数据集
不足
- 无法拓展至软体机器人设置
- 模型只预测点的位置移动,不预测颜色或光照变化
- 无法解偶外部干扰
记忆点
multi-step 状态更新
统一Point Flow表示







