PointWorld: Scaling 3D World Models for In-The-Wild Robotic Manipulation

发表于2026-03-12|更新于2026-03-12|具身智能

|总字数:335|阅读时长:1分钟|浏览量:

作者：Wenlong Huang, Yu-Wei Chao, Arsalan Mousavian, Ming-Yu Liu Dieter Fox, Kaichun Mo, Li Fei-Fei

单位：Stanford University，NVIDIA

会议：2026 Arxiv

研究动机

对于通用机器人而言，在非结构化环境中进行世界建模是至关重要的
基于物理的模型 : 预测精准，但面临“虚实差距 ”，且需要针对特定环境进行繁琐的建模。
基于学习的动力学模型: 虽然能从交互中学习，但通常依赖于特定领域的归纳偏置
视频生成模型: 虽然能生成逼真的视觉效果（如 Sora 等），但缺乏明确的动作条件控制，且在物理一致性上往往表现不佳

核心方法

pw-1

1.利用Point Flow对状态动作进行统一的建模

pw-2

2.对静态动态点的Loss进行加权处理，对noise points预测uncertainty

pw-3

3.构造三维动力学建模数据集

pw-4

数据集

DROID
BEHAVIOR-1K

算力

128张H100

实验结果

pw-5

pw-6

pw-7

pw-8

pw-9

pw-10

优势与不足

优势

统一三维表示，具身无关，提高推理速度
构造了高质量的数据集

不足

无法拓展至软体机器人设置
模型只预测点的位置移动，不预测颜色或光照变化
无法解偶外部干扰

记忆点

multi-step 状态更新
统一Point Flow表示

世界模型具身智能

赞助

微信
支付宝