HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models

01 动机 Motivation

VLA 模型参数量庞大，难以在资源受限的机器人平台（如移动底座、嵌入式控制器）上实时部署。现有 LLM 二值化方法（BiLLM、BiVLM、HBLLM 等）在 VLA 场景下性能严重下滑，根源在于两类 VLA 特有问题：一是微小量化误差在闭环物理执行中被接触动力学放大、沿长视野任务累积，导致灾难性失败；二是视觉激活存在"双主导"现象（background outliers + visual token 不均衡），遮蔽了任务关键信号。

"Even subtle quantization-induced action deviations can be amplified by contact dynamics and compound over long-horizon execution, leading to catastrophic failures such as unstable grasps or large trajectory drift."

teaser: 激活分布与 background artifact — 图 1：背景区域极端激活幅值示意（左）、原始激活热图（中）及模型注意力与任务关键目标的偏差叠加图（右）。"Dual Dominance"现象直观展示：背景 outlier 与视觉 token 不均衡共同影响量化质量。

90.3%OpenVLA-OFT 在 LIBERO 保留精度 (1.08 bit)

93.6%CogACT 在 SIMPLER 保留精度 (Visual Matching)

-4.8%CogACT 性能损失 vs. 全精度（Visual Matching 平均）

1.08 bit平均量化位宽（显著低于 INT4/INT8 方案）

02 方法 Method

HBVLA 分三阶段解决 VLA 二值化难题：① Policy-Aware Weight Partitioning（权重显著性分区）；② Sparse Orthogonal Transform（稀疏正交变换）；③ Hybrid Haar Domain Quantization（混合 Haar 域量化）。整体目标是最小化量化前后 VLA 动作输出的 KL 散度，而非仅拟合权重本身。

HBVLA pipeline — 图 2：HBVLA 流程总览。左侧：block-wise gradient probe 沿 action pathway 反向传播，推导每个 token 对动作生成的重要性分数 s_t，构建 policy-aware rectified Hessian；右侧：针对显著权重与非显著权重分别采用列/行方向 Haar 变换量化后求和重建。

Policy-Aware Rectified Hessian

传统 Hessian 度量将所有 token 同等对待。HBVLA 引入 policy-aware rectified Hessian：对每个 token 计算其对动作生成路径的梯度贡献作为重要性权重 s_t，并将其加权到 Hessian 矩阵中：

H̃ = X·S·Xᵀ = Σ_t=1..N s_t · x_txᵀ_t

基于 H̃，权重矩阵被分为显著子集（salient，保留高保真量化）与非显著子集（non-salient，极限压缩）。

Sparse Orthogonal Transform + Hybrid Haar Quantization

非显著权重通过稀疏正交变换（置换矩阵 + Haar 变换）优化权重几何结构，使高频能量最小化，再以 row-wise Haar 变换 + shared-mean 二值化完成量化。显著权重则采用 column-wise Haar 变换对残差进行高保真重建。两部分求和得到最终量化层。

置换策略通过贪心 pairing-and-chaining 算法选择，使 Haar 域中间态信息熵最低，解决多模态权重异质性（multimodal weight heterogeneity）问题。

非显著权重路径

列置换（稀疏正交变换）→ 低频集中
Row-wise Haar 变换
Group-wise shared-mean 二值化

显著权重路径

提取高 H̃ 分数权重列
Column-wise Haar 变换
残差高保真重建

03 实验 Experiments

在三个基准上评估 HBVLA：LIBERO（OpenVLA / OpenVLA-OFT，四个子任务）、SIMPLER（CogACT，Visual Matching + Variant Aggregation）、以及 Mobile ALOHA 真实机器人实验。基线方法：BiLLM、BiVLM、HBLLM。量化位宽均为 1.08 bit。

LIBERO 基准（OpenVLA-OFT, 1.08 bit）

方法	Spatial	Object	Goal	Long	Avg	Δ vs FP
OpenVLA-OFT (FP)	97.6	98.4	97.9	94.5	97.1	—
BiLLM	59.2	61.4	65.8	44.3	57.7	-39.4%
BiVLM	67.8	69.7	68.4	48.9	64.0	-33.1%
HBLLM	87.2	76.0	89.6	62.0	79.2	-17.9%
HBVLA (ours)	89.3	97.8	91.3	82.7	90.3	-6.8%

SIMPLER 基准（CogACT, 1.08 bit）— Visual Matching

方法	Pick Coke	Move Near	O/C Drawer	Place Apple	Avg	Δ vs FP
CogACT (FP)	91.3	85.0	71.8	50.9	74.8	—
BiLLM	37.0	45.8	32.4	0.0	28.8	-46%
BiVLM	76.8	62.1	52.7	16.7	57.1	-17.7%
HBLLM	80.7	81.7	64.4	22.2	62.3	-12.5%
HBVLA (ours)	86.7	81.7	71.8	38.4	70.0	-4.8%

实机验证：Mobile ALOHA

Mobile ALOHA 实验结果 — 图 3：Mobile ALOHA 三项操作任务（Pick and Place、Sequenced Instruction、Flexible Folding）的成功率对比。HBVLA 与全精度模型性能接近，远优于 BiLLM 和 HBLLM 基线。

消融分析：组件敏感性

组件敏感性分析 — 图 4：各组件对量化的敏感性分析。Vision encoder 对量化最鲁棒；projector 与 action head 对量化最敏感；language model 居中。这一发现指导了 HBVLA 的分区策略——对敏感组件优先分配更多显著权重预算。

置换准则消融

置换准则	Visual Matching 错误率	Variant Aggregation 错误率
ℓ₁-norm	11.6%	15.6%
ℓ₂-norm	8.8%	12.8%
Greedy Pairing (HBVLA)	—（最优）	—（最优）

消融同时验证了 policy-aware Hessian 相对标准 Hessian 的优越性：在 Visual Matching 上错误率从 12.5% 降至 10.3%，在 Variant Aggregation 上从 13.4% 降至 12.1%。

04 局限性 Limitations

Note：论文未设置独立 Limitations 章节。以下条目综合论文正文表述（标注"stated"）与方法设计推断（标注"inferred"）。

闭环累积误差难以完全消除（stated）

论文明确指出："Even subtle quantization-induced action deviations can be amplified by contact dynamics and compound over long-horizon execution"。尽管 HBVLA 大幅缩小差距，但 1-bit 量化在超长视野任务（如 LIBERO-Long）仍有约 -6.8% 的性能损失，极端精密操作场景下风险依然存在。

特定任务子项仍有明显退化（stated）

在 SIMPLER Variant Aggregation 的 "Place Apple" 子任务中，HBVLA 仅取得 24.9%（全精度 46.6%，降幅 -21.7%），远差于其他子任务的表现。说明 1-bit 量化对需要高精度空间推理的任务仍存在瓶颈。

PTQ 校准数据依赖与域外泛化（inferred）

Policy-aware Hessian 的构建需要在特定任务数据上进行 block-wise gradient backpropagation，意味着最优量化配置与任务/环境分布绑定，跨域泛化能力未经充分评估。

量化效益评估缺乏端到端延迟/功耗数据（inferred）

论文聚焦于精度保留，未提供量化后模型在真实硬件上的推理延迟、内存占用或功耗数据，难以评估实际部署收益。