OMG4：优化的最小化 4D Gaussian Splatting

01 动机

4D Gaussian Splatting 能够实时渲染复杂的动态场景，但其模型体积极为庞大——以 Real-Time4DGS 为例，单条序列的存储占用高达 2 GB 以上，严重制约了在移动端、VR/AR 及带宽受限场景下的实际部署。现有 4D 压缩方案（如 GIFStream）虽有所改善，但仍需 10 MB 量级，且在质量与体积之间难以兼顾。

"OMG4 significantly outperforms recent state-of-the-art methods, reducing model sizes by over 60% while maintaining reconstruction quality."

OMG4 Teaser — **图 1：OMG4 总体管线与 Rate-Distortion 曲线。**左侧展示四阶段压缩流程；右侧曲线显示 OMG4 在 N3DV 数据集上以更低存储占用实现了与最近最优方法相当甚至更好的 PSNR，尤其在极低码率（<5 MB）区间优势显著。

~580×相对 Real-Time4DGS 的存储压缩比（2087 MB → 3.61 MB）

65%相对 GIFStream 的额外存储压缩（10 MB → 3.61 MB）

31.80 dBOMG4-M 在 N3DV 上的 PSNR（GIFStream 为 31.75 dB）

246 FPSOMG4-M 在 N3DV（1352×1014）上的实时渲染速度

02 方法

OMG4 采用四阶段渐进压缩流程：首先通过 SD-Score 筛选关键 Gaussian（Sampling），再剔除冗余点（Pruning），随后合并相似点（Merging），最后对属性进行量化编码（Attribute Compression）。每个阶段之间均插入优化步骤，确保损失信息的充分恢复。

OMG4 Architecture — **图 2：OMG4 整体架构。**从左至右依次为 Gaussian Sampling（SD-Score 评分与保留 top-20% Gaussian）、Gaussian Pruning（双阈值剔除低分点）、Gaussian Merging（时空聚类与融合）以及 Attribute Compression（4D Sub-Vector Quantization + MLP 外观建模）。各阶段间均有微调优化。

Gaussian Sampling（SD-Score 双维度评分）

针对 4D 场景的时空双重特性，OMG4 设计了 Static-Dynamic Score（SD-Score）：

Static Score（S_grad）：衡量 Gaussian 在多个时刻下的空间渲染灵敏度，在稀疏静态区域得分更高。
Dynamic Score（T_grad）：衡量对时间梯度的敏感程度，捕捉动态运动的重要性。
综合分数 SD(i) = S_grad(i) · T_grad(i)，仅保留约 20% 的原始 Gaussian 用于后续处理。

**图 3：Gaussian Sampling 效果对比。**SD-Score 能够同时保留静态背景中的关键结构点与动态前景中的运动敏感点，相比仅使用静态或动态单维度评分，采样质量更高。

Gaussian Pruning（双阈值剔除）

在采样子集上进行进一步精简：对 S_grad 和 T_grad 同时设置 p-分位数阈值 τ_S 和 τ_T，保留满足"至少一个维度高于阈值"条件的 Gaussian：
P_GP = {G_i ∈ P_GS | (S_grad(i) ≥ τ_S) ∨ (T_grad(i) ≥ τ_T)}
这一"OR"逻辑确保静态或动态显著的 Gaussian 均不被误剪。

Gaussian Merging（时空聚类与融合）

对剩余 Gaussian 在时空网格中进行聚类，利用空间邻近性与外观相似性计算相似分数，将相似度高的点通过可学习的权重进行融合。该过程以渐进方式重复（网格尺寸递增），逐步减少 Gaussian 总数。

Attribute Compression（4D Sub-Vector Quantization）

将 OMG（3D GS 压缩方法）中的 Sub-Vector Quantization（SVQ）扩展至 4D：采用 MLP 对时间条件下的外观与不透明度进行隐式建模，属性向量被切分为多个子向量分别量化；压缩分两阶段进行（先 3D 属性，再 4D 属性），确保优化稳定性。

03 实验

在 N3DV（Neural 3D Video，多视角动态场景）和 MPEG（Bartender，复杂运动场景）两个标准数据集上与当前最优方法进行对比。指标包括 PSNR、SSIM、LPIPS 和存储大小（MB）。

N3DV 数据集（1352×1014 分辨率）主要对比

方法	PSNR (dB) ↑	SSIM ↑	LPIPS ↓	存储 (MB) ↓	FPS ↑
Real-Time4DGS	31.96	0.946	0.051	2087	—
GIFStream	31.75	0.938	0.051	10.0	—
OMG4-L（本文）	31.99	0.943	0.056	5.75	—
OMG4-M（本文）	31.80	0.941	0.059	3.61	246
OMG4-S（本文）	31.60	0.939	0.064	2.54	—
OMG4-T（本文）	31.47	0.937	0.067	2.09	—

MPEG 数据集（Bartender 场景）

方法	PSNR (dB) ↑	SSIM ↑	LPIPS(VGG) ↓	存储 (MB) ↓
Real-Time4DGS	32.44	0.895	0.1579	1630
GIFStream-L	31.94	0.879	0.190	5.3
OMG4-L（本文）	32.19	0.892	0.175	6.33
OMG4-S（本文）	31.91	0.887	0.190	4.00

FreeTimeGS 泛化性验证

配置	PSNR (dB) ↑	SSIM ↑	LPIPS ↓	存储 (MB) ↓
FTGS-L（原始）	32.80	0.9579	0.0398	61.04
OMG4 (FTGS-L)	32.62	0.9562	0.0411	5.60
OMG4 (FTGS-S)	32.22	0.9516	0.0491	1.92

OMG4 应用于 FreeTimeGS 后，存储从 61.04 MB 降至 5.60 MB，实现约 90% 的压缩率，验证了方法的泛化能力。

N3DV Qualitative Results — **图 5：N3DV 数据集定性对比。**OMG4-M 在极低存储（3.61 MB）下，视觉效果与未压缩的 Real-Time4DGS（2087 MB）高度相似，细节纹理和运动边缘均得到良好保留。

消融实验（Ablation Study）

在 N3DV 数据集上逐步添加各组件的对比结果如下：

配置	PSNR (dB) ↑	SSIM ↑	LPIPS ↓	Gaussian 数量	存储 (MB) ↓
Baseline（仅 GS）	32.07	0.9454	0.0518	679,502	13.26
GS + GP	31.89	0.9429	0.0559	235,027	4.83
GS + GP + GM	31.68	0.9407	0.0606	171,214	3.61
GS + GP + GM + AC（完整）	31.80	0.9414	0.0594	171,136	3.61

属性压缩（AC）在不增加存储的前提下，将 PSNR 从 31.68 dB 提升至 31.80 dB（+0.12 dB），验证了 MLP 隐式外观建模的有效性。同时，Sampling 与 Pruning 的分离设计（而非联合优化）是取得最佳结果的关键。

04 局限性

说明：原文没有单独的 Limitations 章节。以下各条均为从论文设计与实验现象中 推断（inferred） 得出，并非作者明确表述。

与顶线方法仍存在质量差距（推断）

OMG4-M 在 N3DV（1352×1014）上的 PSNR 为 31.80 dB，略低于未压缩基线 Real-Time4DGS 的 31.96 dB（-0.16 dB），SSIM 从 0.946 下降至 0.941，LPIPS 从 0.051 上升至 0.059。在对视觉保真度要求极高的应用场景中，这一差距可能不可忽视。

训练流程复杂，多阶段优化成本较高（推断）

OMG4 包含四个串行压缩阶段，且每个阶段之间均需额外的微调优化。相较于端到端方法，整体训练时间和超参数调优复杂度较高，在实际工程应用中可能增加部署难度。

仅在特定 4D GS 基线（Real-Time4DGS）上系统评估（推断）

大部分核心实验以 Real-Time4DGS 为压缩对象。FreeTimeGS 的泛化实验虽有涉及，但未对更多 4D GS 变体（如基于变形场的方法）进行系统性评估，方法的普适性有待进一步验证。

极端压缩档位（OMG4-T）质量下降明显（推断）

最小配置 OMG4-T 在 N3DV（1352×1014）上 PSNR 降至 31.47 dB，存储仅 2.09 MB。虽实现了更高压缩比，但质量下降已较为明显，极低码率场景的率失真性能有进一步优化空间。