Puffin: Thinking with Camera — 统一相机感知与生成的多模态模型

01 动机

相机几何理解（从图像估计 roll/pitch/FoV 等参数）与可控图像生成（按指定视角合成场景）是空间智能的两大基石，但长期以来被作为独立任务研究。现有方法将相机参数当作辅助数字标签，忽视了其本身作为模态的语义价值，导致模型在追求语义对齐时忽略精确的空间约束，性能次优。

"Camera-centric understanding and generation are two cornerstones of spatial intelligence, yet they are typically studied in isolation."

Puffin 能力总览 — **图 1：Puffin 的多样化能力。**（a）可控图像生成：根据相机参数合成任意视角图像；（b）相机几何理解：从单张图像回归 roll/pitch/FoV；（c）Thinking with Camera 模式：通过自然语言空间推理辅助几何估计；（d）下游 3D 应用：虚拟物体插入、世界探索等。

核心挑战在于模态鸿沟：相机参数是抽象的数值（如 FoV=72°），缺乏视觉语义，而大型多模态模型（LMM）的训练目标是语义对齐。现有做法要么独立训练专用的几何估计器，要么将参数硬编码为辅助标签，均未能充分利用 LMM 的视觉-语言推理能力。Puffin 提出将相机参数视为一种语言，用摄影专业术语（如 "tilt-up"、"Dutch angle"、"close-up"）作为中间表示，弥合数值几何与高层语义之间的差距。

0.32°Roll 误差 (MegaDepth)
vs. GeoCalib 0.36°

1.08°Pitch 误差 (MegaDepth)
vs. GeoCalib 1.94°

2.42°FoV 误差 (MegaDepth)
vs. GeoCalib 4.46°

11.94°Up Vector 误差（生成评估）
vs. PreciseCam 18.66°

02 方法

Puffin 以自回归语言回归（camera understanding）和扩散模型生成（camera-controllable generation）为双主干，通过共享的"Thinking with Camera"链式推理将二者统一。整个系统基于四阶段渐进式训练策略，在 Puffin-4M 数据集上训练，共耗时约 4 天（64 A100 GPU）。

Puffin 总体框架 — **图 2：统一框架概览。**Puffin 以单张图像为输入，通过语言分支回归相机参数（理解任务），同时以文本描述和相机参数为条件通过扩散分支生成图像（生成任务）。两个分支共享视觉编码器，通过"Thinking with Camera"机制实现联动。

Thinking with Camera 机制

该机制的核心思想是将三类空间先验编码进 chain-of-thought 推理链：

Spatially Grounded Visual Cues（空间视觉线索）：天空、天花板、地面等无纹理区域虽缺乏局部特征，却蕴含垂直方向的强先验，对 pitch 估计尤为关键。Puffin 将这类隐含先验显式化，嵌入"thinking caption"。
Professional Photographic Terms（摄影专业术语）：用 "close-up"、"tilt-up"、"Dutch angle" 等摄影师常用词汇替代裸数值，与 LMM 训练语料中的知识高度对齐，充当几何与语义之间的桥梁。
Geometric Context（几何上下文）：将 roll/pitch/FoV 三个维度解耦，每个参数锚定到语义描述符上，最终以连续 latent 形式送入扩散模型，提供细粒度空间先验。

Thinking with Camera 对比传统方法 — **图 3：范式对比。**传统方法（左）将相机参数视为纯数值标签；Puffin（右）引入摄影术语作为中间推理步骤，形成"空间线索 → 语言推理 → 精确估计"的完整链路。

模型架构

Puffin 由四个核心模块构成：

Geometry-aligned Vision Encoder：采用 C-RADIOv3-H，专为几何特征保真设计，避免标准视觉编码器压缩几何信息导致的性能下降。直接 fine-tune InternVL3 或 Qwen2.5-VL 等通用 VLM 的实验表明，其 "underperforms specialized vision-only baselines due to compressed features lacking geometric fidelity"。
LLM Backbone：Qwen2.5-1.5B，负责语言推理与参数回归；通过 64 个可学习 query 的 connector 与视觉编码器对接。
Diffusion Backbone：SD3-Medium，负责相机可控图像生成；接受文本条件与 pixel-wise camera map（perspective field）作为空间先验。
四阶段训练：Stage I（Alignment，冻结基础模型，训练 connector）→ Stage II（SFT，解冻全部模块）→ Stage III（Thinking SFT，引入空间推理 caption）→ Stage IV（Instruction Tuning，跨视角任务）。

Puffin 模型架构图 — **图 4：Puffin 架构细节。**视觉编码器（C-RADIOv3-H）提取几何对齐特征，经 connector 送入 LLM（Qwen2.5-1.5B）进行参数回归和语言推理；pixel-wise camera map 以 latent 形式注入 SD3-Medium 扩散模型，实现相机可控生成。

Puffin-4M 数据集

从约 20 万张全景图（panoramic images）出发，通过透视投影裁切构造 400 万个 vision-language-camera 三元组，覆盖室内/室外多样场景，参数范围为 roll/pitch ∈ [−45°, 45°]、FoV ∈ [20°, 105°]、yaw ∈ [0°, 360°]。每个样本包含：精确相机参数、场景文字描述、pixel-wise perspective field map、以及空间推理 caption（用于 Thinking SFT）。

03 实验

评估分两大任务：（1）相机几何理解，在 MegaDepth、TartanAir、LaMAR 三个公开数据集及自建 Puffin-Und 基准上评估 roll/pitch/FoV 误差；（2）相机可控图像生成，在自建 Puffin-Gen 基准（650 个 caption-camera 对）上评估空间精度（Up Vector/Latitude/Gravity 误差）与视觉质量（FID）。

相机理解：与专用方法对比（Table 3）

数据集	指标	GeoCalib	Perspective Fields	Puffin (Ours)
MegaDepth	Roll↓	0.36°	0.49°	0.32°
MegaDepth	Pitch↓	1.94°	2.09°	1.08°
MegaDepth	FoV↓	4.46°	—	2.42°
TartanAir	Roll↓	0.73°	0.49°	0.40°
TartanAir	Pitch↓	1.89°	1.36°	0.95°
LaMAR	Roll↓	0.43°	0.62°	0.38°
LaMAR	Pitch↓	1.08°	1.75°	0.71°

相机可控生成：与生成方法对比（Table 4）

方法	Up Vector↓	Latitude↓	Gravity↓	FID↓
GPT-4o	34.55°	21.25°	33.48°	95.92
PreciseCam	18.66°	12.49°	18.39°	90.91
Puffin (Ours)	11.94°	6.34°	6.79°	69.46

**图 8：相机可控生成定性对比。**给定相同的文本描述和目标相机参数（camera map），Puffin 生成的图像在透视角度、水平线位置等几何属性上明显优于 PreciseCam 等对比方法，同时保持更高的视觉质量（FID 69.46 vs. 90.91）。

生成评估散点图 — **图 9：预测相机参数与 ground truth 对比散点图。**Puffin 生成图像的相机参数（通过离线标定反算）与目标参数高度一致，Up Vector 平均误差 11.94°，Latitude 误差 6.34°。

消融实验（Table 5）

消融实验在自建 Puffin-Und 基准上进行，验证 Thinking with Camera 机制及架构选择的重要性：

配置	Roll↓	Pitch↓	FoV↓
InternVL3（通用 VLM 直接微调）	0.91°	1.72°	2.96°
Qwen2.5-VL（通用 VLM 直接微调）	0.79°	1.61°	2.91°
Vision Encoder Only（仅视觉编码器）	0.55°	1.00°	1.87°
Puffin（base，无 Thinking）	0.47°	0.91°	1.48°
Puffin（+ Thinking with Camera）	0.41°	0.74°	1.21°

消融实验结果 — **图 11：Thinking with Camera 消融可视化。**引入摄影术语推理链后，模型对 roll/pitch/FoV 的估计均有一致改善（Roll: 0.47° → 0.41°，Pitch: 0.91° → 0.74°，FoV: 1.48° → 1.21°）。此外，联合训练（理解+生成）相比单任务训练表现出互促效应。

消融结论：（1）直接 fine-tune 通用 VLM（InternVL3、Qwen2.5-VL）由于视觉特征经过语义压缩，反而不如专用视觉编码器；（2）Thinking with Camera 机制在所有三个指标上均带来稳定提升；（3）统一训练（理解+生成）相比各自独立训练存在正向互促。

04 局限性

Note: 以下局限性均为论文作者明确陈述（stated），见 Limitations 小节。

固定分辨率限制生成尺度

"Because our training dataset is constructed at a fixed resolution of 512×512, Puffin's image generation is currently restricted to a single scale."训练数据全部以 512×512 构建，导致生成模块目前只能输出单一分辨率，限制了在需要更高分辨率的场景中的实用性。作者指出可通过构建多尺度训练集解决，"these limitations are orthogonal to our main focus."

中心裁切丢弃有效内容

对非方形输入，Puffin 采用中心裁切后缩放的策略，当实际图像长宽比与方形差异较大时，边缘内容被丢弃，可能导致几何估计性能下降。

生成评估依赖离线标定，存在歧义

"The calibration errors it reports can be ambiguous, especially for generated images exhibiting only subtle spatial differences."相机可控生成的定量评估依赖于对生成图像再做离线相机标定（反算参数），这本身存在估计误差，对空间差异细微的生成图像尤为明显，评估结果可能低估实际控制精度。

暂不支持径向畸变建模

当前版本尚未建模镜头径向畸变（radial distortion），对于广角镜头或鱼眼镜头拍摄的图像，几何估计精度会受影响。