PhyCo：面向生成式运动的可控物理先验学习

01 动机

当前视频扩散模型虽然在外观合成上取得了显著进展，但在物理一致性方面仍存在严重缺陷：物体运动不符合物理规律、碰撞缺乏真实弹性响应、材质属性无法在动态行为中体现。现有方案或依赖显式物理求解器（限制灵活性），或缺乏连续的属性控制（难以精确调节）。

"物体发生漂移，碰撞缺乏真实弹性，材质响应往往与其底层属性不匹配。"——原文

PhyCo 可控生成示例 — **图1：PhyCo 可控物理生成示例。**同一场景下，通过调节摩擦系数（friction μf）、弹性系数（restitution e）、形变参数（deformation）以及外力方向和大小（force magnitude & direction），生成的视频呈现出截然不同的物理行为。所有控制均通过像素对齐的物理属性图（property map）输入，无需在推理时调用仿真器。

现有方法的不足

显式物理方法

PhysGen、PhysDreamer 依赖物理求解器
推理时需重建几何结构，计算代价高
难以泛化到多样化场景

隐式/提示词方法

PhysCtrl、VLIPP 缺乏连续属性控制
Force Prompting 仅限单一外力属性
无法同时控制摩擦、弹性、形变等多种属性

100K+高保真物理仿真训练视频

6涵盖不同动力学模式的仿真场景

36.3Physics-IQ Score（测试外推，新SOTA）

15.2°真实视频力方向误差（vs. 40.5° 基线）

02 方法

PhyCo 采用两阶段训练范式：（1）基于 ControlNet 的物理监督微调（Physics-Supervised Fine-Tuning），通过像素对齐的物理属性图条件化预训练扩散模型；（2）基于视觉语言模型（VLM）的奖励优化，进一步提升物理属性的可控性与准确度。

**图2：PhyCo 两阶段训练流程。**第一阶段：基于 Kubric + PyBullet + Blender 构建物理仿真数据集，通过 ControlNet 架构将物理属性图作为条件输入，对冻结的 Cosmos-Predict2 基础模型进行微调。第二阶段：对 Qwen2.5-VL-3B 进行物理问答微调（VLM fine-tuning），再将其作为奖励模型通过端到端反向传播优化 ControlNet 分支的参数，提高属性控制精度。

阶段一：物理监督的 ControlNet 微调

数据集基于 Kubric 框架，使用 PyBullet 物理引擎与 Blender 渲染器构建，包含六类控制场景：砖块在平面滑动（摩擦）、球弹离墙壁（弹性）、球垂直弹跳、软球自由下落、物体撞击可形变体，以及台球多球碰撞。每类场景对物理属性、物体颜色、表面材质、相机位姿和 50 种 HDRI 光照环境进行系统性随机化，最终生成超过 100K 条视频。

物理属性被编码为像素空间内的圆形 blob 表示，归一化至 [-1, 1]。属性分为三组：

接触属性：摩擦系数（μf）和弹性系数（e）
形变属性：Neo-Hookean 参数（dμ、dλ、dγ）
外力属性：力的大小（F）及方向（cos φ、sin φ）

每组属性对应一个独立的 ControlNet 分支，仅更新 ControlNet 层权重，基础扩散模型保持冻结。训练序列为 57 帧 @ 24 FPS，使用标准扩散 score-matching 目标函数。

物理仿真数据集示例 — **图3：PhyCo 仿真数据集示例。**六类场景分别对应不同的物理动力学模式，系统性覆盖摩擦、弹性、形变和外力等属性的多样化取值范围，确保训练数据的物理多样性与视觉可观测性。

阶段二：VLM 奖励优化

单步重建优化因其全局轨迹编码特性，往往产生模糊的细节表现，不足以精确学习物理属性控制。PhyCo 引入 NN 步去噪 rollout，生成与推理阶段一致的预测潜变量，再通过 VLM 奖励对其进行反馈优化。

VLM 奖励模型基于 Qwen2.5-VL-3B，在 PhyCo 数据集上进行物理问答（physics-related queries）微调（LoRA rank=64，200 步，4×H100），在 100 次迭代内达到约 85% 的预测准确率。奖励函数采用正确/错误答案 logit 差的 binary cross-entropy：

ℒ_VLM = −∑_i log σ(ζ₊⁽ⁱ⁾ − ζ₋⁽ⁱ⁾)

VLM 奖励优化阶段使用 8×H200 GPU 训练 100 次迭代（约 70 分钟），峰值显存 115 GB VRAM，通过端到端反向传播更新 DiT backbone 和 ControlNet 分支。

PhyCo 生成结果示例 — **图4：PhyCo 真实场景生成结果。**在真实图像输入条件下，PhyCo 能够根据指定的物理属性生成符合物理规律的动态视频。不同行对应不同的属性控制条件，可观察到运动轨迹、碰撞弹性与形变行为均与输入属性高度一致。

03 实验

PhyCo 在 Physics-IQ 基准、用户研究（2AFC）、合成数据可控性消融以及跨架构泛化四个维度进行了系统评估。基线方法包括 SVD-XT、VLIPP、Cosmos-Predict2（基础模型）、CogVideoX-I2V-5B 和 Force Prompting。

Physics-IQ 基准（测试外推：120 帧 @ 24 FPS）

Physics-IQ 评估模型在固体力学、流体力学、光学、磁学和热力学五个物理领域的理解能力。下表为测试外推条件（120 帧，超出训练的 57 帧）下的结果：

方法	固体力学	流体力学	光学	磁学	热力学	IQ Score
SVD-XT	21.9	20.5	6.8	8.4	17.1	19.1
VLIPP	42.3	34.1	16.9	13.4	8.8	34.6
Ours（仅文本）	36.5	28.9	18.9	12.6	32.0	30.9
Ours（ControlNet）	42.3	30.7	19.3	12.6	40.1	35.3
Ours（ControlNet + VLM）	44.1	31.2	20.1	17.2	33.1	36.3

训练条件下 Physics-IQ（57 帧 @ 24 FPS）

方法	固体力学	流体力学	光学	磁学	热力学	平均
Ours（ControlNet + VLM）	53.1	44.3	20.3	20.8	35.9	43.6

用户研究（2AFC，16 名参与者，39 组视频对）

用户被要求在两段视频中选出物理行为更真实的一段（2AFC 设计）。PhyCo 在所有属性维度均显著优于基线：

对比方案	摩擦（Friction）	弹性（Restitution）	形变（Deformation）	外力（Force）
PhyCo vs. CogVideoX-I2V-5B	95.5%	100.0%	82.2%	91.1%
PhyCo vs. Cosmos-Predict2	100.0%	93.2%	91.3%	86.4%
PhyCo vs. Force Prompting	—	—	—	71.7%

合成数据可控性消融

评估各方法对输入物理属性的量化遵从误差（越低越好）：

方法	力大小误差	摩擦误差	力方向误差（°）	弹性误差	形变误差
基础模型（零样本）	0.38	0.33	91.87	0.40	0.45
仅文本微调	0.31	0.30	40.35	0.31	0.14
ControlNet（−VLM）	0.33	0.24	38.05	0.28	0.14
ControlNet（+VLM）	0.28	0.20	22.53	0.16	0.10

真实视频力方向遵从性

在 25 段真实世界视频上测试力方向控制精度：PhyCo 平均方向误差为 15.2°，Force Prompting 为 40.5°，PhyCo 表现"显著更低的平均方向误差"。

跨架构泛化（Wan2.2 + 文本条件）

方法	固体力学	流体力学	光学	磁学	热力学	平均
Wan2.2（零样本）	34.3	35.2	18.1	10.7	36.0	30.5
PhyCo 数据集微调	42.1	37.6	21.9	12.2	22.1	35.1

跨架构泛化平均提升 4.6%，验证了 PhyCo 数据集在不同模型架构上的有效性。

**图6：与基线方法的定性对比。**在相同的物理属性输入条件下，PhyCo（最右列）生成的视频在碰撞弹性、摩擦减速和形变响应等方面均更符合物理规律，而基线方法（CogVideoX-I2V-5B、Cosmos-Predict2）的动态行为与目标物理属性存在明显偏差。

消融分析小结

消融实验表明：（1）ControlNet 物理属性条件相比纯文本提示在可控性上有显著提升，尤其体现在力方向误差从 40.35° 降至 38.05°；（2）VLM 奖励优化进一步大幅降低所有属性误差，力方向误差进一步降至 22.53°，弹性误差从 0.28 降至 0.16，充分验证了两阶段设计的必要性。

04 局限性

说明：以下局限性均来自论文原文明确陈述（stated by authors），并非推断。

物理近似而非精确复现

生成的动态效果是对真实物理的近似，而非精确再现。论文原文指出："生成的动态是对真实物理的近似，而非精确的物理再现"（"an approximation of real physics rather than an accurate reproduction"）。

物理先验仅覆盖简化的刚体与软体行为

PhyCo 所学习的物理先验主要针对受控场景中的刚体和软体运动，对复杂交互——"关节运动（articulated motion）、流固耦合（fluid-structure coupling）或多接触动力学（multi-contact dynamics）"——的建模仍然不完整。

空间属性图不强制守恒律

像素对齐的属性图无法严格保证动量守恒和形变能量守恒，在某些情况下会产生"细微但可观测的物理偏差"（"subtle but noticeable physical deviations"）。

高频结构区域存在闪烁伪影

在运动剧烈的区域，尤其是细薄或高频纹理结构（thin or high-frequency structures）附近，生成视频可能出现闪烁伪影。论文指出该问题可通过更高训练帧率和更强主干网络加以缓解，但尚未完全解决。

计算资源需求较高

ControlNet 微调需要 4×H100 GPU（约半天，约 45 GB/GPU）；VLM 奖励优化需要 8×H200 GPU（约 70 分钟，峰值 115 GB VRAM）。对普通研究者的复现构成一定门槛。