ICLR 2026 · 计算机视觉

Puffin: Thinking with Camera

统一相机感知与生成的多模态模型
Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy  ·  S-Lab NTU · SenseTime Research · University of Michigan · Max-Planck Institute

Puffin 将相机参数视为语言模态,通过"Thinking with Camera"机制,在同一框架内统一实现相机几何理解(calibration)与可控图像生成(novel view synthesis),在 MegaDepth、TartanAir 等多个基准上超越专用方法。

ICLR 2026 4M 训练样本 64 A100 GPUs · 4 天 📄 arXiv:2510.08673 PDF
camera calibration 相机理解与生成 多模态模型 thinking with camera diffusion model novel view synthesis spatial intelligence Puffin-4M

01 动机

相机几何理解(从图像估计 roll/pitch/FoV 等参数)与可控图像生成(按指定视角合成场景)是空间智能的两大基石,但长期以来被作为独立任务研究。现有方法将相机参数当作辅助数字标签,忽视了其本身作为模态的语义价值,导致模型在追求语义对齐时忽略精确的空间约束,性能次优。

"Camera-centric understanding and generation are two cornerstones of spatial intelligence, yet they are typically studied in isolation."
Puffin 能力总览
图 1:Puffin 的多样化能力。(a)可控图像生成:根据相机参数合成任意视角图像;(b)相机几何理解:从单张图像回归 roll/pitch/FoV;(c)Thinking with Camera 模式:通过自然语言空间推理辅助几何估计;(d)下游 3D 应用:虚拟物体插入、世界探索等。

核心挑战在于模态鸿沟:相机参数是抽象的数值(如 FoV=72°),缺乏视觉语义,而大型多模态模型(LMM)的训练目标是语义对齐。现有做法要么独立训练专用的几何估计器,要么将参数硬编码为辅助标签,均未能充分利用 LMM 的视觉-语言推理能力。Puffin 提出将相机参数视为一种语言,用摄影专业术语(如 "tilt-up"、"Dutch angle"、"close-up")作为中间表示,弥合数值几何与高层语义之间的差距。

0.32°Roll 误差 (MegaDepth)
vs. GeoCalib 0.36°
1.08°Pitch 误差 (MegaDepth)
vs. GeoCalib 1.94°
2.42°FoV 误差 (MegaDepth)
vs. GeoCalib 4.46°
11.94°Up Vector 误差(生成评估)
vs. PreciseCam 18.66°

02 方法

Puffin 以自回归语言回归(camera understanding)和扩散模型生成(camera-controllable generation)为双主干,通过共享的"Thinking with Camera"链式推理将二者统一。整个系统基于四阶段渐进式训练策略,在 Puffin-4M 数据集上训练,共耗时约 4 天(64 A100 GPU)。

Puffin 总体框架
图 2:统一框架概览。Puffin 以单张图像为输入,通过语言分支回归相机参数(理解任务),同时以文本描述和相机参数为条件通过扩散分支生成图像(生成任务)。两个分支共享视觉编码器,通过"Thinking with Camera"机制实现联动。

Thinking with Camera 机制

该机制的核心思想是将三类空间先验编码进 chain-of-thought 推理链:

Thinking with Camera 对比传统方法
图 3:范式对比。传统方法(左)将相机参数视为纯数值标签;Puffin(右)引入摄影术语作为中间推理步骤,形成"空间线索 → 语言推理 → 精确估计"的完整链路。

模型架构

Puffin 由四个核心模块构成:

Puffin 模型架构图
图 4:Puffin 架构细节。视觉编码器(C-RADIOv3-H)提取几何对齐特征,经 connector 送入 LLM(Qwen2.5-1.5B)进行参数回归和语言推理;pixel-wise camera map 以 latent 形式注入 SD3-Medium 扩散模型,实现相机可控生成。

Puffin-4M 数据集

从约 20 万张全景图(panoramic images)出发,通过透视投影裁切构造 400 万个 vision-language-camera 三元组,覆盖室内/室外多样场景,参数范围为 roll/pitch ∈ [−45°, 45°]、FoV ∈ [20°, 105°]、yaw ∈ [0°, 360°]。每个样本包含:精确相机参数、场景文字描述、pixel-wise perspective field map、以及空间推理 caption(用于 Thinking SFT)。

03 实验

评估分两大任务:(1)相机几何理解,在 MegaDepth、TartanAir、LaMAR 三个公开数据集及自建 Puffin-Und 基准上评估 roll/pitch/FoV 误差;(2)相机可控图像生成,在自建 Puffin-Gen 基准(650 个 caption-camera 对)上评估空间精度(Up Vector/Latitude/Gravity 误差)与视觉质量(FID)。

相机理解:与专用方法对比(Table 3)

数据集指标GeoCalibPerspective FieldsPuffin (Ours)
MegaDepthRoll↓0.36°0.49°0.32°
MegaDepthPitch↓1.94°2.09°1.08°
MegaDepthFoV↓4.46°2.42°
TartanAirRoll↓0.73°0.49°0.40°
TartanAirPitch↓1.89°1.36°0.95°
LaMARRoll↓0.43°0.62°0.38°
LaMARPitch↓1.08°1.75°0.71°

相机可控生成:与生成方法对比(Table 4)

方法Up Vector↓Latitude↓Gravity↓FID↓
GPT-4o34.55°21.25°33.48°95.92
PreciseCam18.66°12.49°18.39°90.91
Puffin (Ours)11.94°6.34°6.79°69.46
相机可控生成定性对比
图 8:相机可控生成定性对比。给定相同的文本描述和目标相机参数(camera map),Puffin 生成的图像在透视角度、水平线位置等几何属性上明显优于 PreciseCam 等对比方法,同时保持更高的视觉质量(FID 69.46 vs. 90.91)。
生成评估散点图
图 9:预测相机参数与 ground truth 对比散点图。Puffin 生成图像的相机参数(通过离线标定反算)与目标参数高度一致,Up Vector 平均误差 11.94°,Latitude 误差 6.34°。

消融实验(Table 5)

消融实验在自建 Puffin-Und 基准上进行,验证 Thinking with Camera 机制及架构选择的重要性:

配置Roll↓Pitch↓FoV↓
InternVL3(通用 VLM 直接微调)0.91°1.72°2.96°
Qwen2.5-VL(通用 VLM 直接微调)0.79°1.61°2.91°
Vision Encoder Only(仅视觉编码器)0.55°1.00°1.87°
Puffin(base,无 Thinking)0.47°0.91°1.48°
Puffin(+ Thinking with Camera)0.41°0.74°1.21°
消融实验结果
图 11:Thinking with Camera 消融可视化。引入摄影术语推理链后,模型对 roll/pitch/FoV 的估计均有一致改善(Roll: 0.47° → 0.41°,Pitch: 0.91° → 0.74°,FoV: 1.48° → 1.21°)。此外,联合训练(理解+生成)相比单任务训练表现出互促效应。

消融结论:(1)直接 fine-tune 通用 VLM(InternVL3、Qwen2.5-VL)由于视觉特征经过语义压缩,反而不如专用视觉编码器;(2)Thinking with Camera 机制在所有三个指标上均带来稳定提升;(3)统一训练(理解+生成)相比各自独立训练存在正向互促。

04 局限性

Note: 以下局限性均为论文作者明确陈述(stated),见 Limitations 小节。
固定分辨率限制生成尺度

"Because our training dataset is constructed at a fixed resolution of 512×512, Puffin's image generation is currently restricted to a single scale."训练数据全部以 512×512 构建,导致生成模块目前只能输出单一分辨率,限制了在需要更高分辨率的场景中的实用性。作者指出可通过构建多尺度训练集解决,"these limitations are orthogonal to our main focus."

中心裁切丢弃有效内容

对非方形输入,Puffin 采用中心裁切后缩放的策略,当实际图像长宽比与方形差异较大时,边缘内容被丢弃,可能导致几何估计性能下降。

生成评估依赖离线标定,存在歧义

"The calibration errors it reports can be ambiguous, especially for generated images exhibiting only subtle spatial differences."相机可控生成的定量评估依赖于对生成图像再做离线相机标定(反算参数),这本身存在估计误差,对空间差异细微的生成图像尤为明显,评估结果可能低估实际控制精度。

暂不支持径向畸变建模

当前版本尚未建模镜头径向畸变(radial distortion),对于广角镜头或鱼眼镜头拍摄的图像,几何估计精度会受影响。