PhyWorld: Physics-Faithful World Model for Video Generation

作者：Pu Zhao, Juyi Lin, Timothy Rupprecht, Arash Akbari, Chence Yang, Rahul Chowdhury, Elaheh Motamedi, Arman Akbari, Yumei He, Chen Wang, Geng Yuan, Weiwei Chen, Yanzhi Wang

单位：Northeastern University, University of Georgia, Tulane University, EmbodyX

会议：2026 Arxiv

链接：https://arxiv.org/abs/2605.19242

研究动机

这篇论文把视频生成模型当作 Physical AI 的训练环境，而不是只把它当成“看起来逼真”的生成器。对于世界模型来说，真正关键的不只是下一帧清不清晰，而是给定当前观测后，后续视频是否还能保持同一个物体、同一个背景、同一种运动状态，并继续沿着符合物理规律的方向演化。
作者认为现有视频世界模型有两个核心短板。第一类问题是时序物理状态不稳定，例如背景颜色漂移、物体速度忽快忽慢、前后帧身份不一致；第二类问题是模型内部没有显式的“物理约束入口”，训练时主要靠海量视频统计规律，缺少直接教模型什么叫碰撞、流体连续、反射或重力合理性的监督。
因而论文的核心问题不是“怎么再把视频质量做高一点”，而是：能否在一个开源大视频模型上，用后训练的方式同时补两件事，一件是 continuation 的稳定性，另一件是 physics faithfulness 的可监督对齐？

PhyWorld 的回答是把问题拆成两阶段：先用 flow matching 把视频延续这件事训练稳，再用基于物理偏好的 DPO 让模型朝着“更符合物理规律”的方向移动。

核心方法

PhyWorld-0

PhyWorld 建立在 Wan2.2-I2V-A14B 上，但不是直接拿原始 image-to-video 模型来评测，而是先把它改造成既能做 image-to-video，也能做 video-to-video continuation 的底座。整套方法可以分成两个连续阶段。

阶段一：用 flow matching 把 video continuation 训练稳。

作者把一段条件视频送入 Wan-VAE 编码成 latent，并额外构造一个二值 mask，显式区分哪些帧来自条件输入、哪些帧需要模型续写。这样做的重点不是“多喂一点历史帧”，而是让模型知道 continuation 的边界在哪里，避免把保留帧和生成帧混成一团。除此之外，作者还用条件视频最后一帧的 CLIP 特征作为全局语义上下文，经由三层 MLP 投影后，通过 decoupled cross-attention 注入 DiT，使模型在续写时既保留局部时序信息，又维持场景级语义一致性。

阶段一的数据过滤也在为“物理稳定”服务。

作者并没有直接把 OpenVid-1M 全量拿来微调，而是做了两层筛选。第一层是时间一致性筛选，用相邻帧 CLIP 特征的余弦相似度排掉几乎静止的片段和严重闪烁/切镜的片段；第二层是运动过滤，用 UniMatch 估计光流，把运动过猛或异常不稳定的片段去掉。这个设计非常工程化，但逻辑是对的：如果阶段一的目标是“学会稳定地续写物理状态”，那训练数据本身就不能充满高速混乱运动和频繁断裂的镜头。

阶段二：把“是否符合物理规律”转成偏好学习问题。

作者不试图显式写一个碰撞方程或流体方程塞进生成器，而是把物理违反看作 preference learning。具体做法是给同一 prompt 和同一条件图像下的两个候选视频打分，形成 winner/loser 配对，再用 DPO 去训练一个 LoRA policy 分支，相对于冻结的 reference 分支更偏好物理更合理的输出。这里的关键点有两个：

第一，训练只更新 LoRA，底座保持冻结，意味着作者想尽量保留原模型的视频先验，只在偏好方向上做校正；第二，DPO 只在高噪声时间窗 t ∈ [901, 999] 上训练，作者的解释是 judge 的区分信号主要集中在这里，这样可以减少 reward hacking 式的投机修正。

他们没有只做 DPO，还自己造了一套物理对齐基准。

论文的一个重要贡献是自建 TI2V physics benchmark。它包含 250 个 prompt，每个 prompt 对应一张条件首帧，并按物理规律组织成多个维度：一般质量维度包括 SA / PTV / persistence，物理维度包括 collision/rebound、destruction/deformation、fluids、shadow/reflection、chain、rolling/sliding 和 throwing/ballistic。然后作者用约 350 位标注者、约 4500 条清洗后的标注，微调了一个开源的 Qwen3.5-9B 视频语言 judge，用它既做评测，也为 DPO 提供偏好信号。

偏好对的构造不是随手拼的，而是一个四阶段管线。

PhyWorld-1

Table 1 对应 T0→T1→T2→T3 管线：先给单个视频打总分，再在同组内形成有序 pair，然后解析条件图像并落盘，最后才进入 RL 采样池。这里最值得记住的是，作者不是对所有 pair 一视同仁，而是在形成最终 1000 个训练 pair 之前做了多轮过滤，把“能稳定提供物理偏好差异”的样本尽量留下。

PhyWorld-2

Table 2 展示了最终 1000 对 DPO 训练样本的事件配额。碰撞/反弹类最多，为 513 对；流体类 168 对；破坏/形变类 93 对；阴影/反射类 68 对；rolling/sliding 和 throwing/ballistic 更少。这意味着 PhyWorld 学到的“物理常识”不是均匀覆盖所有物理现象，而是更偏向视频生成里最常见、最容易被 judge 识别的那几类规律。

数据集

阶段一训练数据： OpenVid-1M。作者从中筛出时间一致、运动平滑的子集，用来把 Wan2.2-I2V-A14B 微调成更稳定的 continuation 模型。
阶段二训练与评测数据： 作者自建的 TI2V physics benchmark。它由 250 个 prompt 与条件首帧组成，每条样本都会按一般质量和物理规律维度分别打分。DPO 训练使用的偏好对并不是 benchmark 全量，而是由 T0→T1→T2→T3 管线逐步过滤出来的子集。
偏好对规模： T1 retained 有 3,324 对、250 个 group、253 个 prompt；T3 RL pool 还剩 2,202 对、208 个 group；最终 round-4 的训练集是 1,000 对。
评测集： 视频质量评测使用 VBench 的 500 个随机 prompt，分辨率为 480p；物理一致性评测使用作者的 250-prompt TI2V 基准，并用发布出来的开源 judge 模型做逐维度打分。

算力

论文明确披露了 第二阶段 DPO 的训练配置：world_size = 4，micro_batch = 1，梯度累积 2，对应有效 batch size 为 8。1000 对样本每个 epoch 对应 125 个 optimizer step，共训练 2 个 epoch，也就是 250 个 optimizer step。
DPO 阶段优化器为 AdamW，学习率 1×10^-5，β = 100，并最终选择最后一个 epoch 的 checkpoint。论文明确说明这一阶段使用了 16 张 Nvidia H100。
第一阶段 flow matching 微调 的总 GPU 数没有在正文里明确给出，但给了关键输入规格：video-to-video 管线中，输入视频为 17 帧，ground truth 视频为 49 帧；在这一阶段，作者从 Wan2.2-I2V-A14B 出发，顺序微调其两个面向不同 timestep 的 DiT，学习率为 1e-6。

实验结果

PhyWorld-3

Table 3 是标准视频质量指标。PhyWorld 在 VBench 上的平均分达到 0.769，高于 Wan2.2-I2V-A14B 的 0.756，也高于 Cosmos-14B、LTX-2.3-22B、OmniWeaving 等开源 baseline。更重要的是，它的提升不是只体现在一个边角指标上，而是 subject consistency、background consistency、motion smoothness、imaging quality 几项都比底座更高。这和第一阶段的设计目标是吻合的，说明 flow matching 微调确实先把“继续生成时不要漂”这件事做好了。

PhyWorld-4

Table 4 是这篇论文真正的主菜。PhyWorld 的 Overall 物理一致性得分为 3.09，高于冻结底座 Wan2.2-I2V-A14B 的 2.99。论文特别强调，提升主要集中在 DPO 真正优化到的方向上：PTV 提升 +0.10，Persistence 提升 +0.15，Optical 物理域提升 +0.21。这很关键，因为它说明第二阶段不是在瞎涨分，而是在物理 judge 真正关注的轴上移动。

PhyWorld-5

Figure 2 给出几组视觉示例。PhyWorld 相比 baseline 更少出现背景颜色漂移、主体位置关系突变和不合理外观变化。严格说，这些例子还不是“牛顿方程级”的物理推演，而更像是“视频延续时别突然不讲理”。但对于把视频模型作为 world simulator 的第一步，这已经是很实际的改进，因为很多下游策略学习首先就会被这种跨帧身份漂移绊住。

优势与不足

优势

问题拆分很清楚。 先修 continuation 稳定性，再修 physics alignment，比一上来就端到端追求“懂物理的视频生成器”更现实，也更容易定位收益来自哪里。
评测和训练信号是闭环的。 作者没有只说“我们感觉更符合物理”，而是构建了有 taxonomy、有人工标注、还有开源 judge 的评测管线，并进一步把这套信号用于 DPO 训练，这让论文的叙事比较完整。
改进方向和训练目标一致。 从 PTV、Persistence、Optical 的提升可以看出，模型不是仅靠审美或清晰度混到更高总分，而是在物理相关维度上被显式推了一步。
工程改造成本相对可控。 整个方法仍然是基于 Wan2.2-I2V-A14B + LoRA + DPO 的后训练路线，没有引入沉重的显式 3D 场景状态或外部物理引擎，因此对开源视频模型社区比较容易复现。

不足

它仍然是“对生成视频打物理补丁”，不是显式状态世界模型。 PhyWorld 并没有维护可解释的 3D 状态、接触关系或动作条件，只是通过偏好学习把输出往更像“物理正确”的方向拉。因此它更像 physics-aware video generator，而不是能直接支撑规划和闭环交互的可执行模拟器。
物理知识覆盖面受偏好数据分布限制。 最终 DPO 只用了 1000 对样本，而且事件分布明显不均衡，碰撞/反弹占比很高，chain、throwing 等类很少。这意味着模型更可能学到“常见违规模式的修补策略”，而不是广义物理规律。
论文自己也承认它继承了底座偏差。 结论部分明确写到，PhyWorld 是从 Wan2.2-I2V-A14B 后训练得到的，因此会继承原模型的数据偏见和失败模式。换句话说，它不是重建世界模型，只是在原有生成先验上做 physics alignment。
距离真正的 Physical AI policy transfer 还有一层。 作者把“训练出的世界模型策略能否迁移到真实 agent”留给未来工作。也就是说，这篇论文证明了“物理更像了”，但还没有证明这种改进会直接转化成更好的控制、规划或机器人学习收益。

记忆点

把视频世界模型的问题拆成“先学会稳定续写，再学会服从物理偏好”是这篇论文最值得记住的设计。
TI2V physics benchmark + Qwen3.5-9B judge + DPO 组成了一条完整的 physics alignment 闭环，评测信号和训练信号来自同一套 taxonomy。
PhyWorld 的提升主要不在“更好看”，而在 PTV、Persistence 和 Optical physics 这些更接近物理一致性的维度。
这篇论文提醒我们：很多所谓 world model 的第一性问题，未必是生成分辨率或时长，而是有没有明确机制去约束“后续视频仍然讲同一套物理故事”。