cs.CV · 动态场景重建 · 模型压缩

OMG4:优化的最小化 4D Gaussian Splatting

将 2GB 动态场景模型压缩至约 3 MB,同时保持实时渲染质量
Minseo Lee, Byeonghyeon Lee, Lucas Yunkyu Lee, Eunsoo Lee, Sangmin Kim, Seunghyeon Song, Joo Chan Lee, Jong Hwan Ko, Jaesik Park, Eunbyung Park

OMG4 提出了一套针对 4D Gaussian Splatting 的渐进式压缩框架,通过 Gaussian Sampling、Gaussian Pruning、Gaussian Merging 与 Attribute Compression 四个阶段,将动态场景模型的存储开销降低三个数量级,同时在 N3DV 等标准基准上维持与未压缩基线相当的视觉质量。

arXiv 2025-10 N3DV · MPEG 数据集 实时渲染 >240 FPS 📄 arXiv:2510.03857 PDF 全文
关键词4D Gaussian Splatting动态场景重建模型压缩Gaussian PruningSub-Vector Quantization实时渲染Rate-Distortion动态场景压缩Neural 3D Video

01 动机

4D Gaussian Splatting 能够实时渲染复杂的动态场景,但其模型体积极为庞大——以 Real-Time4DGS 为例,单条序列的存储占用高达 2 GB 以上,严重制约了在移动端、VR/AR 及带宽受限场景下的实际部署。现有 4D 压缩方案(如 GIFStream)虽有所改善,但仍需 10 MB 量级,且在质量与体积之间难以兼顾。

"OMG4 significantly outperforms recent state-of-the-art methods, reducing model sizes by over 60% while maintaining reconstruction quality."
OMG4 Teaser
图 1:OMG4 总体管线与 Rate-Distortion 曲线。左侧展示四阶段压缩流程;右侧曲线显示 OMG4 在 N3DV 数据集上以更低存储占用实现了与最近最优方法相当甚至更好的 PSNR,尤其在极低码率(<5 MB)区间优势显著。
~580×相对 Real-Time4DGS 的存储压缩比(2087 MB → 3.61 MB)
65%相对 GIFStream 的额外存储压缩(10 MB → 3.61 MB)
31.80 dBOMG4-M 在 N3DV 上的 PSNR(GIFStream 为 31.75 dB)
246 FPSOMG4-M 在 N3DV(1352×1014)上的实时渲染速度

02 方法

OMG4 采用四阶段渐进压缩流程:首先通过 SD-Score 筛选关键 Gaussian(Sampling),再剔除冗余点(Pruning),随后合并相似点(Merging),最后对属性进行量化编码(Attribute Compression)。每个阶段之间均插入优化步骤,确保损失信息的充分恢复。

OMG4 Architecture
图 2:OMG4 整体架构。从左至右依次为 Gaussian Sampling(SD-Score 评分与保留 top-20% Gaussian)、Gaussian Pruning(双阈值剔除低分点)、Gaussian Merging(时空聚类与融合)以及 Attribute Compression(4D Sub-Vector Quantization + MLP 外观建模)。各阶段间均有微调优化。

Gaussian Sampling(SD-Score 双维度评分)

针对 4D 场景的时空双重特性,OMG4 设计了 Static-Dynamic Score(SD-Score)

Gaussian Sampling
图 3:Gaussian Sampling 效果对比。SD-Score 能够同时保留静态背景中的关键结构点与动态前景中的运动敏感点,相比仅使用静态或动态单维度评分,采样质量更高。

Gaussian Pruning(双阈值剔除)

在采样子集上进行进一步精简:对 S_grad 和 T_grad 同时设置 p-分位数阈值 τ_S 和 τ_T,保留满足"至少一个维度高于阈值"条件的 Gaussian:
P_GP = {G_i ∈ P_GS | (S_grad(i) ≥ τ_S) ∨ (T_grad(i) ≥ τ_T)}
这一"OR"逻辑确保静态或动态显著的 Gaussian 均不被误剪。

Gaussian Pruning
图 4:Gaussian Pruning 可视化。双阈值策略有效去除了两个维度均不显著的冗余 Gaussian,在大幅减少点数的同时保持了关键结构的完整性。

Gaussian Merging(时空聚类与融合)

对剩余 Gaussian 在时空网格中进行聚类,利用空间邻近性与外观相似性计算相似分数,将相似度高的点通过可学习的权重进行融合。该过程以渐进方式重复(网格尺寸递增),逐步减少 Gaussian 总数。

Attribute Compression(4D Sub-Vector Quantization)

将 OMG(3D GS 压缩方法)中的 Sub-Vector Quantization(SVQ)扩展至 4D:采用 MLP 对时间条件下的外观与不透明度进行隐式建模,属性向量被切分为多个子向量分别量化;压缩分两阶段进行(先 3D 属性,再 4D 属性),确保优化稳定性。

03 实验

N3DV(Neural 3D Video,多视角动态场景)和 MPEG(Bartender,复杂运动场景)两个标准数据集上与当前最优方法进行对比。指标包括 PSNR、SSIM、LPIPS 和存储大小(MB)。

N3DV 数据集(1352×1014 分辨率)主要对比

方法PSNR (dB) ↑SSIM ↑LPIPS ↓存储 (MB) ↓FPS ↑
Real-Time4DGS31.960.9460.0512087
GIFStream31.750.9380.05110.0
OMG4-L(本文)31.990.9430.0565.75
OMG4-M(本文)31.800.9410.0593.61246
OMG4-S(本文)31.600.9390.0642.54
OMG4-T(本文)31.470.9370.0672.09

MPEG 数据集(Bartender 场景)

方法PSNR (dB) ↑SSIM ↑LPIPS(VGG) ↓存储 (MB) ↓
Real-Time4DGS32.440.8950.15791630
GIFStream-L31.940.8790.1905.3
OMG4-L(本文)32.190.8920.1756.33
OMG4-S(本文)31.910.8870.1904.00

FreeTimeGS 泛化性验证

配置PSNR (dB) ↑SSIM ↑LPIPS ↓存储 (MB) ↓
FTGS-L(原始)32.800.95790.039861.04
OMG4 (FTGS-L)32.620.95620.04115.60
OMG4 (FTGS-S)32.220.95160.04911.92

OMG4 应用于 FreeTimeGS 后,存储从 61.04 MB 降至 5.60 MB,实现约 90% 的压缩率,验证了方法的泛化能力。

N3DV Qualitative Results
图 5:N3DV 数据集定性对比。OMG4-M 在极低存储(3.61 MB)下,视觉效果与未压缩的 Real-Time4DGS(2087 MB)高度相似,细节纹理和运动边缘均得到良好保留。

消融实验(Ablation Study)

在 N3DV 数据集上逐步添加各组件的对比结果如下:

配置PSNR (dB) ↑SSIM ↑LPIPS ↓Gaussian 数量存储 (MB) ↓
Baseline(仅 GS)32.070.94540.0518679,50213.26
GS + GP31.890.94290.0559235,0274.83
GS + GP + GM31.680.94070.0606171,2143.61
GS + GP + GM + AC(完整)31.800.94140.0594171,1363.61

属性压缩(AC)在不增加存储的前提下,将 PSNR 从 31.68 dB 提升至 31.80 dB(+0.12 dB),验证了 MLP 隐式外观建模的有效性。同时,Sampling 与 Pruning 的分离设计(而非联合优化)是取得最佳结果的关键。

04 局限性

说明:原文没有单独的 Limitations 章节。以下各条均为从论文设计与实验现象中 推断(inferred) 得出,并非作者明确表述。
与顶线方法仍存在质量差距(推断)

OMG4-M 在 N3DV(1352×1014)上的 PSNR 为 31.80 dB,略低于未压缩基线 Real-Time4DGS 的 31.96 dB(-0.16 dB),SSIM 从 0.946 下降至 0.941,LPIPS 从 0.051 上升至 0.059。在对视觉保真度要求极高的应用场景中,这一差距可能不可忽视。

训练流程复杂,多阶段优化成本较高(推断)

OMG4 包含四个串行压缩阶段,且每个阶段之间均需额外的微调优化。相较于端到端方法,整体训练时间和超参数调优复杂度较高,在实际工程应用中可能增加部署难度。

仅在特定 4D GS 基线(Real-Time4DGS)上系统评估(推断)

大部分核心实验以 Real-Time4DGS 为压缩对象。FreeTimeGS 的泛化实验虽有涉及,但未对更多 4D GS 变体(如基于变形场的方法)进行系统性评估,方法的普适性有待进一步验证。

极端压缩档位(OMG4-T)质量下降明显(推断)

最小配置 OMG4-T 在 N3DV(1352×1014)上 PSNR 降至 31.47 dB,存储仅 2.09 MB。虽实现了更高压缩比,但质量下降已较为明显,极低码率场景的率失真性能有进一步优化空间。