arXiv 2026 · 机器人 · VLA 量化

HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models

将 VLA 模型极限压缩至 1.08 bit,性能损失低至 5%,赋能边缘机器人部署
Xin Yan, Zhenglin Wan, Feiyang Ye, Xingrui Yu, Hangyu Du, Yang You, Ivor Tsang

大型 Vision-Language-Action(VLA)模型在机器人上部署代价极高。HBVLA 提出一套专为 VLA 定制的 1-bit post-training quantization 框架:通过 policy-aware rectified Hessian 识别动作生成关键权重,再结合稀疏正交变换与 Haar 域混合量化,将 OpenVLA-OFT 压缩至 1.08 bit 仍保留 90.3% 性能(LIBERO),CogACT 在 SIMPLER 上保留 93.6%,实机验证效果接近全精度。

arXiv 2602.13710 提交 2026-02-14 1.08 bit · PTQ · VLA 📄 arXiv:2602.13710 PDF
1-bit quantization post-training quantization Vision-Language-Action Hessian saliency Haar transform 机器人部署 模型压缩 VLA binarization policy-aware 边缘推理

01 动机 Motivation

VLA 模型参数量庞大,难以在资源受限的机器人平台(如移动底座、嵌入式控制器)上实时部署。现有 LLM 二值化方法(BiLLM、BiVLM、HBLLM 等)在 VLA 场景下性能严重下滑,根源在于两类 VLA 特有问题:一是微小量化误差在闭环物理执行中被接触动力学放大、沿长视野任务累积,导致灾难性失败;二是视觉激活存在"双主导"现象(background outliers + visual token 不均衡),遮蔽了任务关键信号。

"Even subtle quantization-induced action deviations can be amplified by contact dynamics and compound over long-horizon execution, leading to catastrophic failures such as unstable grasps or large trajectory drift."
teaser: 激活分布与 background artifact
图 1:背景区域极端激活幅值示意(左)、原始激活热图(中)及模型注意力与任务关键目标的偏差叠加图(右)。"Dual Dominance"现象直观展示:背景 outlier 与视觉 token 不均衡共同影响量化质量。
90.3%OpenVLA-OFT 在 LIBERO 保留精度 (1.08 bit)
93.6%CogACT 在 SIMPLER 保留精度 (Visual Matching)
-4.8%CogACT 性能损失 vs. 全精度(Visual Matching 平均)
1.08 bit平均量化位宽(显著低于 INT4/INT8 方案)

02 方法 Method

HBVLA 分三阶段解决 VLA 二值化难题:① Policy-Aware Weight Partitioning(权重显著性分区);② Sparse Orthogonal Transform(稀疏正交变换);③ Hybrid Haar Domain Quantization(混合 Haar 域量化)。整体目标是最小化量化前后 VLA 动作输出的 KL 散度,而非仅拟合权重本身。

HBVLA pipeline
图 2:HBVLA 流程总览。左侧:block-wise gradient probe 沿 action pathway 反向传播,推导每个 token 对动作生成的重要性分数 st,构建 policy-aware rectified Hessian;右侧:针对显著权重与非显著权重分别采用列/行方向 Haar 变换量化后求和重建。

Policy-Aware Rectified Hessian

传统 Hessian 度量将所有 token 同等对待。HBVLA 引入 policy-aware rectified Hessian: 对每个 token 计算其对动作生成路径的梯度贡献作为重要性权重 st,并将其加权到 Hessian 矩阵中:

H̃ = X·S·Xᵀ = Σt=1..N st · xtxᵀt

基于 H̃,权重矩阵被分为显著子集(salient,保留高保真量化)与非显著子集(non-salient,极限压缩)。

Sparse Orthogonal Transform + Hybrid Haar Quantization

非显著权重通过稀疏正交变换(置换矩阵 + Haar 变换)优化权重几何结构,使高频能量最小化,再以 row-wise Haar 变换 + shared-mean 二值化完成量化。显著权重则采用 column-wise Haar 变换对残差进行高保真重建。两部分求和得到最终量化层。

置换策略通过贪心 pairing-and-chaining 算法选择,使 Haar 域中间态信息熵最低,解决多模态权重异质性(multimodal weight heterogeneity)问题。

非显著权重路径

  • 列置换(稀疏正交变换)→ 低频集中
  • Row-wise Haar 变换
  • Group-wise shared-mean 二值化

显著权重路径

  • 提取高 H̃ 分数权重列
  • Column-wise Haar 变换
  • 残差高保真重建

03 实验 Experiments

在三个基准上评估 HBVLA:LIBERO(OpenVLA / OpenVLA-OFT,四个子任务)、SIMPLER(CogACT,Visual Matching + Variant Aggregation)、以及 Mobile ALOHA 真实机器人实验。基线方法:BiLLM、BiVLM、HBLLM。量化位宽均为 1.08 bit。

LIBERO 基准(OpenVLA-OFT, 1.08 bit)

方法SpatialObjectGoalLongAvgΔ vs FP
OpenVLA-OFT (FP)97.698.497.994.597.1
BiLLM59.261.465.844.357.7-39.4%
BiVLM67.869.768.448.964.0-33.1%
HBLLM87.276.089.662.079.2-17.9%
HBVLA (ours)89.397.891.382.790.3-6.8%

SIMPLER 基准(CogACT, 1.08 bit)— Visual Matching

方法Pick CokeMove NearO/C DrawerPlace AppleAvgΔ vs FP
CogACT (FP)91.385.071.850.974.8
BiLLM37.045.832.40.028.8-46%
BiVLM76.862.152.716.757.1-17.7%
HBLLM80.781.764.422.262.3-12.5%
HBVLA (ours)86.781.771.838.470.0-4.8%

实机验证:Mobile ALOHA

Mobile ALOHA 实验结果
图 3:Mobile ALOHA 三项操作任务(Pick and Place、Sequenced Instruction、Flexible Folding)的成功率对比。HBVLA 与全精度模型性能接近,远优于 BiLLM 和 HBLLM 基线。

消融分析:组件敏感性

组件敏感性分析
图 4:各组件对量化的敏感性分析。Vision encoder 对量化最鲁棒;projector 与 action head 对量化最敏感;language model 居中。这一发现指导了 HBVLA 的分区策略——对敏感组件优先分配更多显著权重预算。

置换准则消融

置换准则Visual Matching 错误率Variant Aggregation 错误率
ℓ₁-norm11.6%15.6%
ℓ₂-norm8.8%12.8%
Greedy Pairing (HBVLA)—(最优)—(最优)

消融同时验证了 policy-aware Hessian 相对标准 Hessian 的优越性:在 Visual Matching 上错误率从 12.5% 降至 10.3%,在 Variant Aggregation 上从 13.4% 降至 12.1%。

04 局限性 Limitations

Note:论文未设置独立 Limitations 章节。以下条目综合论文正文表述(标注"stated")与方法设计推断(标注"inferred")。
闭环累积误差难以完全消除(stated)

论文明确指出:"Even subtle quantization-induced action deviations can be amplified by contact dynamics and compound over long-horizon execution"。尽管 HBVLA 大幅缩小差距,但 1-bit 量化在超长视野任务(如 LIBERO-Long)仍有约 -6.8% 的性能损失,极端精密操作场景下风险依然存在。

特定任务子项仍有明显退化(stated)

在 SIMPLER Variant Aggregation 的 "Place Apple" 子任务中,HBVLA 仅取得 24.9%(全精度 46.6%,降幅 -21.7%),远差于其他子任务的表现。说明 1-bit 量化对需要高精度空间推理的任务仍存在瓶颈。

PTQ 校准数据依赖与域外泛化(inferred)

Policy-aware Hessian 的构建需要在特定任务数据上进行 block-wise gradient backpropagation,意味着最优量化配置与任务/环境分布绑定,跨域泛化能力未经充分评估。

量化效益评估缺乏端到端延迟/功耗数据(inferred)

论文聚焦于精度保留,未提供量化后模型在真实硬件上的推理延迟、内存占用或功耗数据,难以评估实际部署收益。