4D 生成 · 神经仿真 · arXiv 2605.30347

NeuROK: 生成式 4D 神经物体运动学

无需预定义物理模型,从静态 3D 形状生成真实的时序动态变形
Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu  ·  Stanford University · University of Cambridge · Cornell University

NeuROK 提出了一种数据驱动的"运动学状态参数化"方法,通过学习一个表示物体所有可能状态的潜空间,并配合物理启发的 Lagrangian 动力学方程,在无需类别特定物理标注的前提下,实现对弹性体、布料、铰接体等各类动态物体的 4D 仿真生成。

arXiv 2605.30347v1 · 2026年5月 Stanford · Cambridge · Cornell 支持:弹性体、布料、铰接体、连续体 arXiv 论文链接
关键词4D generationneural kinematicsLagrangian dynamics数据驱动运动学变分自编码器mesh deformationdual quaternions广义坐标物理仿真铰接体动力学

01 动机

现有的 4D 动态生成方法大多依赖预定义的物理模型,通过系统辨识估计参数——这将方法局限于特定类别,且难以扩展到大规模数据。NeuROK 的核心洞见是:通过学习"数据驱动的运动学状态参数化",可以突破这些限制。

"Given a 3D geometric snapshot of a dynamic object, humans can intuitively imagine how the object would react under different physical conditions, even without precise knowledge of the governing physical equations."
NeuROK teaser figure
图 1:NeuROK 总览。 给定静态 3D 物体,在不同物理条件(力、动作、初始速度)驱动下,NeuROK 生成多样的逼真 4D 动态序列,涵盖弹性体、布料、铰接体、刚体等多种物体类型。

为什么现有方法不够?

81.4%用户研究偏好率(动作对齐,105人)
83.3%用户研究偏好率(运动真实性,105人)
0.764逆运动学 IoU(超越次优方法 +34%)
2.343WorldScore MM(次优方法为 0.889)

02 方法

NeuROK 的核心思路是:先学习一个低维潜空间(即"神经运动学状态参数化"),再在此潜空间中用 Lagrangian 力学方程驱动动力学演化——将高维顶点空间的问题降维到低维广义坐标空间。

NeuROK architecture overview
图 3:框架总览。 给定静态 3D 形状,NeuROK 使用基于 Transformer 的编码器预测该实例特定的潜空间,以表示物体的不同运动学状态;再通过 Lagrangian 力学在此潜空间中进行动力学求解,最终解码为变形 mesh。

运动学先验编码器 ℰ_cond

以静态 3D mesh 为输入,输出该实例的运动学先验分布。采用 Perceiver 架构(可学习 token + 交叉注意力 + 自注意力),位置编码跟随 3DShape2Vecset,天然支持可变数量的顶点,具备良好的可扩展性。

变分变形编码器 ℰ_VAE

在条件 mesh 基础上,对变形场编码为后验分布参数。顶点变形通过 dual quaternions(双四元数) 参数化,再经重心插值映射至采样点,有效捕捉旋转主导的变形(如铰接体关节转动)。

变形解码器 𝒟

从采样的潜向量解码为变形 mesh:在输入 mesh 表面采样查询点,经自注意力和交叉注意力处理潜 token,MLP 预测变形向量,最终通过加权平均驱动 mesh 顶点。

Lagrangian 动力学求解

学到的潜空间充当广义坐标(generalized coordinates),在此低维空间中求解 Euler-Lagrange 方程:

m G(z)z̈ + C(z, ż) + ∇_z V = 0

其中 G(z) 为广义质量矩阵,C(z,ż) 为科里奥利项,∇_z V 为势能梯度。该公式维持能量守恒等物理一致性,同时无需为每类物体手动定义物理约束。

训练目标

采用条件 VAE 目标函数,在大规模 4D 数据集上联合训练三个模型:

ℒ = ||δ_sample − δ_pred||²₂ + λ · D_KL(q ‖ p), λ = 0.01

训练仅需 4D 几何轨迹(变形 mesh 序列),无需物理参数标注或动作标注。训练数据涵盖从现有工作和物理仿真中整合的大规模 4D 数据集,覆盖弹性体、布料、铰接体、刚体、连续体等多类别。

03 实验

实验从两个维度评估 NeuROK:(1)逆运动学——给定目标形状,找到潜编码使重建最优;(2)生成式 4D 仿真——在不同物理条件下生成时序动态序列。用户研究共邀请 105 名参与者。

逆运动学性能(Table 1)

方法Chamfer (L1) ↓Chamfer (L2) ↓IoU ↑
KeyPointDeformer0.0670.0670.570
CANOR0.0820.0670.568
NeuROK(本文)0.0280.0280.764
Qualitative comparison on inverse kinematics
图 5:逆运动学定性比较。 NeuROK 在重建各类物体的目标变形状态时,相比 KeyPointDeformer 和 CANOR 均有明显优势,形状边界更清晰,IoU 提升显著。

生成式 4D 仿真(Table 2)

与三类基线方法对比:PhysDreamer(弹性体物理仿真)、OmniPhysGS(高斯溅射物理)、AnimateAnyMesh(mesh 动画)。评估指标包括用户研究(动作对齐度、运动真实性)、VBench AQ(视频质量)、WorldScore MM(多模态世界分数)。

方法对齐度 ↑真实性 ↑VBench AQ ↑WorldScore MM ↑
PhysDreamer5.95%5.36%0.3620.783
OmniPhysGS1.67%0.48%0.3800.544
AnimateAnyMesh5.83%6.67%0.4500.889
NeuROK(本文)81.43%83.33%0.4832.343
Qualitative comparison on 4D generation
图 6:4D 生成定性比较。 在相同物理条件输入下,NeuROK 生成的运动序列在真实性和对齐度上均大幅优于 PhysDreamer、OmniPhysGS 和 AnimateAnyMesh。

消融实验(Table 1 ablation)

对三个关键设计组件进行消融,均在逆运动学任务上评估:

配置Chamfer L1 ↓Chamfer L2 ↓IoU ↑
NeuROK 完整版0.0280.0280.764
去除模型降维(w/o Model Reduction)0.0450.0590.711
去除数据增强(w/o Data Aug)0.0360.0410.724
去除双四元数(w/o Dual-Quat)0.0330.0370.728

泛化性:未见类别与真实扫描物体

Generalization to unseen categories
图 9:未见类别的泛化能力。 NeuROK 可直接泛化到训练集中完全未出现的物体类别,无需针对新类别重新训练或微调。

此外,NeuROK 可直接对真实世界扫描获得的 3D 物体进行仿真(Figure 7),无需针对扫描物体进行特殊适配,体现了框架的实用性。

04 局限性

注: 论文结论部分未包含明确的局限性段落,仅表示"开创了有前景的未来研究方向"。以下各点:标注"作者表述"者来自论文原文;标注"推断(inferred)"者为基于方法设计合理推断的潜在局限。
依赖训练数据覆盖的物体类型 (推断 inferred)

NeuROK 从大规模 4D 数据集学习运动学先验。对于与训练分布差异极大的物体(如极端拓扑形变、流体类物体),潜空间的表达能力可能受限。虽然论文展示了对未见类别的泛化(Figure 9),但泛化边界尚未被系统性验证。

物理输入精度要求 (推断 inferred)

将外部物理条件(力、初始速度、动作)接入系统的方式是通过优化初始运动学状态 (z₀, ż₀) 以匹配指定粒子的位置和速度。这一接口在面对高度不确定性的物理输入或缺乏明确锚点的场景时,行为尚不清晰。

仅限 mesh 表示,不直接支持高斯溅射或 NeRF (推断 inferred)

NeuROK 以 3D mesh 为输入输出,对于以高斯溅射(3DGS)或神经辐射场(NeRF)表示的场景,需要额外的格式转换步骤,与直接操作渲染表示的方法(如 PhysDreamer、OmniPhysGS)相比,端到端流程稍显复杂。

"开创新的研究范式" (作者表述 stated)

论文结论原文:"Our work opens up promising future research directions and introduces a new research paradigm in 4D visual generation." 这意味着若干开放问题(如更精细的物理接口、更大规模训练数据、与渲染管线的深度集成)有待后续工作探索。