CVPR 2026 · Carnegie Mellon University

Flow3r:面向可扩展视觉几何学习的因子化光流预测

Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning
Zhongxiao Cong  ·  Qitao Zhao  ·  Minsik Jeon  ·  Shubham Tulsiani  |  Carnegie Mellon University

Flow3r 提出以2D稠密对应关系("光流")作为监督信号,使视觉几何网络能够从无标注视频中学习,无需昂贵的3D/相机标注。核心洞察是:光流预测模块应当被"因子化"——用源视图的几何特征与目标视图的相机特征共同预测光流,从而同时指导场景几何与相机运动的学习,并自然推广至动态场景。

CVPR 2026 ~800K 无标注视频 8个基准测试 SOTA 📄 arXiv:2602.20157 🌐 项目主页
关键词factored optical flowvisual geometry learning无标注视频监督前馈式三维重建相机位姿估计动态场景重建稠密对应关系伪标注流监督可扩展几何学习多视角Transformer

01 动机

当前最先进的前馈式3D/4D重建系统依赖稠密几何与相机位姿标注进行训练——这类标注在大规模场景下获取代价高昂,对于动态真实世界场景尤其稀缺。这一瓶颈使视觉几何学习无法像语言模型或视觉Transformer那样从海量无标注数据中扩展。

"Current feed-forward 3D/4D reconstruction systems rely on dense geometry and pose supervision — expensive to obtain at scale and particularly scarce for dynamic real-world scenes."
Flow3r teaser
图1. Flow3r 总览。Flow3r 利用无标注视频(通过光流监督)配合有标注3D数据,实现可扩展的视觉几何学习。这使模型能够在野外场景下进行精准多视角3D重建,尤其对有标注数据极少的场景(如交互视频、动态场景)效果显著。

核心问题

光流(两帧之间的像素级稠密对应关系)是经典多视角方法中的核心信号,也是近年稠密对应估计器的输出目标。 Flow3r 的关键研究问题是:如何利用光流有效地监督视觉几何学习? 现有方法(如 VGGT)虽尝试将光流预测作为辅助目标,但仅通过局部特征匹配预测光流,主要鼓励视觉判别特征,并不直接促进几何与相机位姿的学习。

8静态+动态基准 全部达到 SOTA
~800K无标注训练视频序列
76.26RRA@30↑ 动态场景(vs 基线 66.01)
97.62RTA@30↑ CO3Dv2 静态场景

02 方法

Flow3r 在标准有监督视觉几何网络(如 π³、VGGT)基础上,附加一个因子化光流预测头,将源视图的几何特征(geometry latents)与目标视图的相机特征(camera latents)融合后,通过 DPT 头解码出稠密光流预测。训练时对有标注数据使用真实监督,对无标注视频则由教师模型(UFM)提供伪标注光流进行监督。

光流预测机制对比
图2. 光流预测机制对比。(a) 视觉几何骨干网络:编码器输出相机 token 与 patch token;(b) 基于匹配的对应关系预测:直接从局部特征匹配预测光流(VGGT等方案);(c) 基于投影几何的因子化:将预测的3D点显式投影至目标视图(仅适用于静态场景,对几何误差敏感);(d) 本文的因子化光流预测:将源视图几何特征与目标视图相机特征在隐空间中融合后解码,自然扩展至动态场景。

因子化光流预测(Factored Flow Prediction)

对于静态场景,源视图 i 到目标视图 j 的光流仅由源视图几何(全局点图)和目标相机位姿决定。 受此启发,Flow3r 不进行解析投影,而是训练一个学习型非对称光流预测模块

i→j = Φflow(gi, cj)

其中 gi 为源视图几何特征,cj 为目标视图相机特征(来自多视角 Transformer 的输出)。 这一设计绕过了对显式几何元素的解码,提升了鲁棒性,并使模型能够端对端训练。 对于动态场景,光流自然被理解为相机运动与场景运动的叠加,无需额外设计。

总体架构与训练目标

Flow3r 总体架构
图3. Flow3r 总体架构。多视角 Transformer 同时输出相机 token(ci)和 patch token(xi)。对有标注数据,直接用真实相机位姿与几何监督相应输出。对无标注数据,将融合后的 patch token 与相机 token 一同送入光流预测头,输出预测光流并与教师模型(Flow Teacher,即 UFM)产生的伪标注对比计算损失。

Flow3r 在两阶段训练:首先冻结骨干网络,仅在有标注数据上训练光流头;然后解冻全部参数,结合有标注与无标注数据端对端微调。 流监督损失采用鲁棒回归损失(广义 Charbonnier loss),并使用可视性掩码 C 屏蔽遮挡区域:

Lflow = 1/Σp∈Ω C[p] · Σp∈Ω C[p] · ℓrobust(‖ûi→j[p] − ui→j[p]‖₂)

与现有方法的关键区别

flow-tracking(VGGT 方案)

  • 基于双视图 patch 特征的匹配头
  • 主要学习视觉判别特征
  • 不直接促进几何或相机位姿学习
  • 实验表明几乎无法提升几何质量

flow-projective(解析投影方案)

  • 将预测3D点显式投影至目标相机
  • 仅适用于静态场景
  • 对解码几何误差敏感,甚至降低性能
  • Flow3r(flow-factored)在所有场景上均优于此方案

03 实验

Flow3r 在两类设置下评估:(1) 受控对照实验,验证因子化光流的有效性;(2) 将其集成进 π³ 与 VGGT 骨干,在8个基准(4个动态 + 4个静态)上对比前沿前馈方法。 有标注数据集涵盖 CO3Dv2、Habitat、ARKitScenes、ScanNet++ 等约11个多视角重建数据集(约34K序列),无标注视频来自 Kinetics-700、SpatialVID、EPIC-KITCHENS(~800K序列)。

Table 1:因子化光流对视觉几何学习的提升(受控实验)

模型变体 静态 RRA@30↑ 静态 RTA@30↑ 静态 CD↓ 静态 MSE↓ 动态 RRA@30↑ 动态 RTA@30↑ 动态 MSE↓
3d-sup(无无标注数据基线) 0.7500 0.6929 0.030 0.088 66.01 62.37 0.637
flow-projective 0.6700 0.4572 0.033 0.088 61.23 56.12 0.710
flow-tracking 0.7438 0.7021 0.030 0.089 68.56 62.95 0.628
flow-factored(Flow3r) 0.7700 0.7366 0.026 0.078 76.26 68.84 0.598

Table 2:动态场景基准测试对比

方法 Kinetics700 MSE↓ Kinetics700 f-score@5↑ EPIC-KITCHENS MSE↓ EPIC-KITCHENS f-score@5↑ Sintel f-score@5↑ Bonn f-score@5↑
DUSt3R0.3120.5280.3380.4930.2710.800
CUT3R0.3030.5750.3380.4930.6760.899
VGGT0.2200.6170.2200.6200.5950.884
π³0.2000.6200.2000.6200.5230.905
Flow3r(本文) 0.256 0.599 0.199 0.622 0.426 0.954

Flow3r 在所有动态数据集上一致优于 DUSt3R、CUT3R、VGGT 和 π³。

Table 3:静态场景基准测试对比

方法 CO3Dv2 RTA@30↑ CO3Dv2 f-score@5↑ ScanNet RTA@30↑ ScanNet f-score@5↑ NRGBD f-score@5↑ 7-Scenes f-score@5↑
DUSt3R90.680.78357.140.83193.250.714
CUT3R90.680.73771.390.74095.630.695
VGGT87.620.88489.170.93199.210.665
π³97.490.90591.440.96499.200.737
Flow3r(本文) 97.62 0.876 92.89 0.943 99.60 0.807
因子化光流对比消融
图4. 因子化光流促进视觉几何学习。与基线(3d-sup)和其他光流监督变体(flow-projective、flow-tracking)相比,Flow3r(flow-factored)能产生更精准的场景重建,突显无标注数据与因子化光流设计的优势。

无标注数据扩展性(Table 4)

固定1K有标注 OmniWorld 序列,逐步增加无标注 SpatialVID 数据量:

有标注序列数无标注序列数RRA@30↑MSE↓
OmniWorld (1K)66.010.637
OmniWorld (1K)SpatialVID (3K)76.260.598
OmniWorld (1K)SpatialVID (10K)78.450.560
OmniWorld (1K)SpatialVID (20K)81.120.532
OmniWorld (4K,参考基线)78.680.565

使用20K条无标注视频(1K有标注 + 20K无标注)可超越4K有标注数据的模型,证明因子化光流监督的扩展性。

无标注数据扩展
图5. 无标注视频扩展效果。随着 SpatialVID 无标注数据量不断增加,动态场景重建质量持续提升,甚至超越使用更多有标注数据训练的模型,验证了因子化光流监督的可扩展性。

定性结果对比

定性结果对比
图6. 野外数据定性结果。在静态场景、动态场景和交互视频上,与 VGGT、π³、CUT3R 等前馈方法对比重建效果。Flow3r 能推断出更整洁、更准确的场景结构,而基线方法常出现错位输出或错误的运动估计。

消融实验(Table 5)

以 VGGT 和 π³ 为骨干,逐步加入有标注流监督与无标注流监督:

无标注数据带来的增益主要来自无标注视频,而非多任务学习本身。

04 局限性

说明:论文第5节(Discussion)明确陈述了以下三点局限性,均为作者明确指出(stated),非推断。
依赖教师模型提供伪标注(Teacher Model Dependency)

"Flow3r relies on off-the-shelf models to provide pseudo-ground-truth flow supervision, and there can be domains where such 2D prediction fails." — 在某些分布外领域(如医学图像、航拍等),预训练2D光流模型可能给出低质量伪标注,从而影响几何学习。

复杂动态场景中多运动体的挑战(Complex Multi-Object Dynamics)

"Although our factored flow formulation elegantly handles dynamic scenes…, Flow3r may struggle under complex scenes with multiple independently moving components." — 当场景中存在多个独立运动物体时,单一相机特征 token 可能无法完整编码所有运动信息。

当前实验规模距真正大规模仍有差距(Scale Gap to Web-Scale)

"Our current experiments operate at a moderate scale (~800K video sequences for flow supervision), and scaling to truly large-scale settings (~10-100M videos) presents an exciting but unexplored direction." — 尽管~800K序列已展现出良好的扩展性,更大规模训练的潜力尚未被探索,且对算力与存储提出了新挑战。

推断(inferred):因子化光流对独立流估计并非最优

作者本人指出:"our factored flow prediction is suboptimal for standalone flow estimation — since it enforces an information bottleneck by conditioning on the target-view camera token rather than patch features that contain richer visual cues." 即该设计优化的是几何监督信号质量,而非光流预测本身的精度。