视频生成 · 物理先验 · ControlNet

PhyCo:面向生成式运动的可控物理先验学习

PhyCo: Learning Controllable Physical Priors for Generative Motion
Sriram Narayanan¹²,Ziyu Jiang²,Srinivasa G. Narasimhan¹,Manmohan Chandraker²³ | ¹Carnegie Mellon University ²NEC Labs America ³UC San Diego

PhyCo 是首个将大规模物理仿真数据集、ControlNet 物理属性条件调节,以及 VLM 奖励优化三者融合的视频生成框架。该框架在不依赖推理期仿真器的前提下,实现了对摩擦力、弹性系数、形变参数和外力方向等物理属性的连续可控生成,显著提升了生成视频的物理真实性。

数据集:100K+ 仿真视频 基础模型:Cosmos-Predict2 Physics-IQ Score:36.3(测试外推) arXiv 2604.28169
关键词物理先验视频生成ControlNetVLM奖励优化物理仿真数据集可控生成扩散模型Physics-IQ摩擦弹性形变控制video diffusion

01 动机

当前视频扩散模型虽然在外观合成上取得了显著进展,但在物理一致性方面仍存在严重缺陷:物体运动不符合物理规律、碰撞缺乏真实弹性响应、材质属性无法在动态行为中体现。现有方案或依赖显式物理求解器(限制灵活性),或缺乏连续的属性控制(难以精确调节)。

"物体发生漂移,碰撞缺乏真实弹性,材质响应往往与其底层属性不匹配。"——原文
PhyCo 可控生成示例
图1:PhyCo 可控物理生成示例。同一场景下,通过调节摩擦系数(friction μf)、弹性系数(restitution e)、形变参数(deformation)以及外力方向和大小(force magnitude & direction),生成的视频呈现出截然不同的物理行为。所有控制均通过像素对齐的物理属性图(property map)输入,无需在推理时调用仿真器。

现有方法的不足

显式物理方法

  • PhysGen、PhysDreamer 依赖物理求解器
  • 推理时需重建几何结构,计算代价高
  • 难以泛化到多样化场景

隐式/提示词方法

  • PhysCtrl、VLIPP 缺乏连续属性控制
  • Force Prompting 仅限单一外力属性
  • 无法同时控制摩擦、弹性、形变等多种属性
100K+高保真物理仿真训练视频
6涵盖不同动力学模式的仿真场景
36.3Physics-IQ Score(测试外推,新SOTA)
15.2°真实视频力方向误差(vs. 40.5° 基线)

02 方法

PhyCo 采用两阶段训练范式:(1)基于 ControlNet 的物理监督微调(Physics-Supervised Fine-Tuning),通过像素对齐的物理属性图条件化预训练扩散模型;(2)基于视觉语言模型(VLM)的奖励优化,进一步提升物理属性的可控性与准确度。

PhyCo 两阶段训练流程
图2:PhyCo 两阶段训练流程。第一阶段:基于 Kubric + PyBullet + Blender 构建物理仿真数据集,通过 ControlNet 架构将物理属性图作为条件输入,对冻结的 Cosmos-Predict2 基础模型进行微调。第二阶段:对 Qwen2.5-VL-3B 进行物理问答微调(VLM fine-tuning),再将其作为奖励模型通过端到端反向传播优化 ControlNet 分支的参数,提高属性控制精度。

阶段一:物理监督的 ControlNet 微调

数据集基于 Kubric 框架,使用 PyBullet 物理引擎与 Blender 渲染器构建,包含六类控制场景:砖块在平面滑动(摩擦)、球弹离墙壁(弹性)、球垂直弹跳、软球自由下落、物体撞击可形变体,以及台球多球碰撞。每类场景对物理属性、物体颜色、表面材质、相机位姿和 50 种 HDRI 光照环境进行系统性随机化,最终生成超过 100K 条视频。

物理属性被编码为像素空间内的圆形 blob 表示,归一化至 [-1, 1]。属性分为三组:

每组属性对应一个独立的 ControlNet 分支,仅更新 ControlNet 层权重,基础扩散模型保持冻结。训练序列为 57 帧 @ 24 FPS,使用标准扩散 score-matching 目标函数。

物理仿真数据集示例
图3:PhyCo 仿真数据集示例。六类场景分别对应不同的物理动力学模式,系统性覆盖摩擦、弹性、形变和外力等属性的多样化取值范围,确保训练数据的物理多样性与视觉可观测性。

阶段二:VLM 奖励优化

单步重建优化因其全局轨迹编码特性,往往产生模糊的细节表现,不足以精确学习物理属性控制。PhyCo 引入 NN 步去噪 rollout,生成与推理阶段一致的预测潜变量,再通过 VLM 奖励对其进行反馈优化。

VLM 奖励模型基于 Qwen2.5-VL-3B,在 PhyCo 数据集上进行物理问答(physics-related queries)微调(LoRA rank=64,200 步,4×H100),在 100 次迭代内达到约 85% 的预测准确率。奖励函数采用正确/错误答案 logit 差的 binary cross-entropy:

VLM = −∑i log σ(ζ₊(i) − ζ₋(i))

VLM 奖励优化阶段使用 8×H200 GPU 训练 100 次迭代(约 70 分钟),峰值显存 115 GB VRAM,通过端到端反向传播更新 DiT backbone 和 ControlNet 分支。

PhyCo 生成结果示例
图4:PhyCo 真实场景生成结果。在真实图像输入条件下,PhyCo 能够根据指定的物理属性生成符合物理规律的动态视频。不同行对应不同的属性控制条件,可观察到运动轨迹、碰撞弹性与形变行为均与输入属性高度一致。

03 实验

PhyCo 在 Physics-IQ 基准、用户研究(2AFC)、合成数据可控性消融以及跨架构泛化四个维度进行了系统评估。基线方法包括 SVD-XT、VLIPP、Cosmos-Predict2(基础模型)、CogVideoX-I2V-5B 和 Force Prompting。

Physics-IQ 基准(测试外推:120 帧 @ 24 FPS)

Physics-IQ 评估模型在固体力学、流体力学、光学、磁学和热力学五个物理领域的理解能力。下表为测试外推条件(120 帧,超出训练的 57 帧)下的结果:

方法 固体力学 流体力学 光学 磁学 热力学 IQ Score
SVD-XT 21.920.56.88.417.119.1
VLIPP 42.334.116.913.48.834.6
Ours(仅文本) 36.528.918.912.632.030.9
Ours(ControlNet) 42.330.719.312.640.135.3
Ours(ControlNet + VLM) 44.1 31.2 20.1 17.2 33.1 36.3

训练条件下 Physics-IQ(57 帧 @ 24 FPS)

方法 固体力学 流体力学 光学 磁学 热力学 平均
Ours(ControlNet + VLM) 53.1 44.3 20.3 20.8 35.9 43.6

用户研究(2AFC,16 名参与者,39 组视频对)

用户被要求在两段视频中选出物理行为更真实的一段(2AFC 设计)。PhyCo 在所有属性维度均显著优于基线:

对比方案 摩擦(Friction) 弹性(Restitution) 形变(Deformation) 外力(Force)
PhyCo vs. CogVideoX-I2V-5B 95.5% 100.0% 82.2% 91.1%
PhyCo vs. Cosmos-Predict2 100.0% 93.2% 91.3% 86.4%
PhyCo vs. Force Prompting 71.7%

合成数据可控性消融

评估各方法对输入物理属性的量化遵从误差(越低越好):

方法 力大小误差 摩擦误差 力方向误差(°) 弹性误差 形变误差
基础模型(零样本) 0.380.3391.870.400.45
仅文本微调 0.310.3040.350.310.14
ControlNet(−VLM) 0.330.2438.050.280.14
ControlNet(+VLM) 0.28 0.20 22.53 0.16 0.10

真实视频力方向遵从性

在 25 段真实世界视频上测试力方向控制精度:PhyCo 平均方向误差为 15.2°,Force Prompting 为 40.5°,PhyCo 表现"显著更低的平均方向误差"。

跨架构泛化(Wan2.2 + 文本条件)

方法 固体力学 流体力学 光学 磁学 热力学 平均
Wan2.2(零样本) 34.335.218.110.736.030.5
PhyCo 数据集微调 42.1 37.6 21.9 12.2 22.1 35.1

跨架构泛化平均提升 4.6%,验证了 PhyCo 数据集在不同模型架构上的有效性。

与基线方法的定性对比
图6:与基线方法的定性对比。在相同的物理属性输入条件下,PhyCo(最右列)生成的视频在碰撞弹性、摩擦减速和形变响应等方面均更符合物理规律,而基线方法(CogVideoX-I2V-5B、Cosmos-Predict2)的动态行为与目标物理属性存在明显偏差。

消融分析小结

消融实验表明:(1)ControlNet 物理属性条件相比纯文本提示在可控性上有显著提升,尤其体现在力方向误差从 40.35° 降至 38.05°;(2)VLM 奖励优化进一步大幅降低所有属性误差,力方向误差进一步降至 22.53°,弹性误差从 0.28 降至 0.16,充分验证了两阶段设计的必要性。

04 局限性

说明:以下局限性均来自论文原文明确陈述(stated by authors),并非推断。
物理近似而非精确复现

生成的动态效果是对真实物理的近似,而非精确再现。论文原文指出:"生成的动态是对真实物理的近似,而非精确的物理再现"("an approximation of real physics rather than an accurate reproduction")。

物理先验仅覆盖简化的刚体与软体行为

PhyCo 所学习的物理先验主要针对受控场景中的刚体和软体运动,对复杂交互——"关节运动(articulated motion)、流固耦合(fluid-structure coupling)或多接触动力学(multi-contact dynamics)"——的建模仍然不完整。

空间属性图不强制守恒律

像素对齐的属性图无法严格保证动量守恒和形变能量守恒,在某些情况下会产生"细微但可观测的物理偏差"("subtle but noticeable physical deviations")。

高频结构区域存在闪烁伪影

在运动剧烈的区域,尤其是细薄或高频纹理结构(thin or high-frequency structures)附近,生成视频可能出现闪烁伪影。论文指出该问题可通过更高训练帧率和更强主干网络加以缓解,但尚未完全解决。

计算资源需求较高

ControlNet 微调需要 4×H100 GPU(约半天,约 45 GB/GPU);VLM 奖励优化需要 8×H200 GPU(约 70 分钟,峰值 115 GB VRAM)。对普通研究者的复现构成一定门槛。