CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games

01 动机

现有大型视觉语言模型（VLM）无法满足复杂3D游戏战斗场景对"秒级响应、高分辨率感知和动态战术推理"的实时要求，而专用小模型又缺乏足够的通用视觉理解能力。

"Real-time decision-making in complex 3D environments … demand second-level responses, high-resolution perception, and tactical reasoning under dynamic conditions."

CombatVLA teaser: performance comparison — 图1：CombatVLA 综合对比。左侧：在 CUBench 战斗理解基准上超越 GPT-4o、Qwen2.5-VL；中间：推理延迟仅 1.85s，比 Cradle（61.68s）快33倍，比 VARP（90.23s）快50倍；右侧：实际战斗任务成功率超越人类基线。

50×比 VARP 快（推理延迟）

63.61%CUBench 平均准确率（第一名）

1.85s单次推理延迟

3B模型参数量

现有方案的核心瓶颈在于：

通用 VLM（GPT-4o, Gemini）：需要60–90秒推理，完全无法用于实时战斗控制。
框架型方案（Cradle, VARP）：多次模型调用（5–10次）叠加延迟，1次战斗指令需61–90秒；且高度依赖提示工程。
专用小型模型：缺乏对复杂战斗场景的感知和推理能力。

CombatVLA 的目标是在单次1.85秒推理内完成"观察→思考→行动"的完整闭环，同时保持通用视觉能力不大幅退化。

02 方法

CombatVLA 以 Qwen2.5-VL-3B 为骨干，冻结视觉编码器，对语言模型全参数 SFT。核心创新是三阶段渐进式训练策略与 Action-of-Thought（AoT）推理链，以及针对动作优先级的自适应加权损失函数。

CombatVLA system pipeline — 图2：CombatVLA 完整系统流程。(a) Action Tracker 以毫秒级精度同步记录键盘/鼠标/截图；(b) 三种 AoT 训练数据类型（视频AoT、帧AoT、截断AoT）；(c) CUBench 基准的三类任务；(d) 模型训练约束；(e) 在实际PC上部署运行。

Action Tracker：高精度数据采集

自研 Python 工具，以毫秒级精度同步记录键盘、鼠标操作与游戏截图，将动作通过时间戳协议对齐到最近的未来帧。共采集 25,000 张游戏截图（分辨率 1008×560），标注 5,000 条高质量 AoT 序列，覆盖10种动作类型（移动 WSAD、闪避 space、治疗 R、定身 1、轻/重攻击、冲刺等）。

三阶段渐进式学习（Progressive Learning）

Stage 1 · Coarse-Grained Video-AoT

输入完整视频（n=20帧，m=10 fps），学习粗粒度战斗理解与完整 AoT 推理链。训练 3 个 epoch。

Stage 2 · Fine-Grained Frames-AoT

输入帧序列（k=4 回溯帧），实现细粒度时序对齐，捕捉战斗动作的帧级依赖。训练 1 个 epoch。

Stage 3 · Frames-Truncated-AoT

引入特殊 ⟨TRUNC⟩ token，允许模型在完成动作预测后立即截断输出，跳过冗余推理文本。平均 token 数从 116.57 降至 43.10，推理速度提升约2倍。训练 3 个 epoch。

Action-of-Thought visualization — 图3：Action-of-Thought 推理链可视化。⟨TRUNC⟩ token 使模型在推理完成时提前截断输出，平均减少输出 token 数从 116.57 降至 43.10，实现约2倍推理加速，同时保持完整的战略推理语义。

自适应动作加权损失（Adaptive Action-Weighted Loss）

损失函数结合三项：语言建模损失 ℒ_lang、动作对齐损失 ℒ_align（优先级感知匹配，权重序列 α_i = 2^(k−i−1) 指数衰减并归一化至 [0.1, 1.0]）与模态对比损失 ℒ_con。三项联合优化，保证动作预测精度与视觉-语言模态对齐。

CUBench：战斗理解评测基准

CUBench benchmark — 图4：CUBench 三类任务示例。Gathering（单图采集）：从单帧判断当前状态；Comprehension（多图理解）：跨帧序列理解战斗事件；Reasoning（多选推理）：面对动态情境进行多步战术推理。共914条标注样本，经10名标注员交叉验证。

CUBench 共 914 条标注样本（39.4% Gathering / 22.3% Comprehension / 38.3% Reasoning），覆盖《黑神话：悟空》（BMW）和《只狼：影逝二度》（Sekiro）两款游戏，评测战斗场景下的感知、理解与战术推理能力。

03 实验

在 CUBench 战斗理解基准和13项实际战斗任务上进行评测，与 GPT-4o、Gemini-2.0-flash、Claude3.5-Sonnet、Qwen2.5-VL 系列及 VARP、Cradle 等基线对比。

CUBench 战斗理解基准（Table 2）

模型	Gathering	Comprehension	Reasoning	Average
CombatVLA-3B（本文）	60.83%	60.29%	69.71%	63.61%
Gemini-2.0-flash	58.61	64.22	50.86	57.90
GPT-4o-0513	58.06	66.67	47.14	57.29
Claude3.5-Sonnet	—	—	55.43	—
Qwen2.5-VL-3B（基线）	53.61	56.86	57.14	55.87

CombatVLA 超越第二名 Gemini-2.0-flash 5.71 个百分点；在 Reasoning 子任务上比 Claude3.5-Sonnet 高出 14.28 个百分点。

推理延迟对比（Table 3）

方案	推理延迟	模型调用次数	相对 CombatVLA
CombatVLA（本文）	1.85s	1	1×
Cradle	61.68s	5	33×
VARP	90.23s	10	49×

通用基准保持能力（Table 2）

基准	Qwen2.5-VL-3B（基线）	CombatVLA-3B
MME	2157	2141
VideoMME	61.5	58.7
OCRBench	797	741

专项微调后通用能力小幅下降，但仍保持竞争力，表明 AoT 训练策略有效缓解了灾难性遗忘。

Qualitative results — 图5：定性结果示例。展示实际战斗中 AoT 推理过程、Python 动作指令生成和帧序列对应关系——模型能准确识别敌人攻击模式并生成对应的闪避/反击指令。

消融实验

渐进式学习阶段消融（Table 4）：

仅 Stage 1：平均 57.27%，推理延迟 59.5s
Stage 1 + Stage 2：平均 61.43%，延迟 3.73s
全三阶段（完整模型）：平均 63.61%，延迟 1.85s（Stage 3 在 Reasoning 上比 Stage 2 提升 +6.85 个百分点）

损失函数消融（Table 5）：

去除 ℒ_con：61.58%
去除 ℒ_align：61.64%
完整损失（三项联合）：63.61%

结果表明三个损失分量各自贡献显著，缺少任一均导致准确率下降约2个百分点。

实际战斗任务测试（Task-Level）

在《黑神话：悟空》10项任务和《只狼：影逝二度》3项任务（共13项）上进行实际游戏测试，涵盖简单到极难不同难度级别。Easy 任务达到与人类相当的成功率（70–90%）；Hard/Very Hard 任务上持续超越所有基线和人类水平，成功率稳定在70%以上。此外，模型在未见过任务上表现出较强的零样本泛化能力。

04 局限性

说明：以下局限性均为作者在论文中明确陈述的内容（stated by authors）。

任务定义较为简化

论文原文指出："Task definitions are somewhat simplistic" given evolving VLA capabilities。当前13项战斗任务的划分粒度和复杂度，随着 VLA 能力的进步可能需要重新设计，无法完全覆盖真实游戏中更丰富的战术场景。

泛化场景受限

论文明确指出："Research tested within BMW and SSDT games and has not extended to other scenarios"。模型目前仅在《黑神话：悟空》和《只狼》两款游戏上验证，跨游戏、跨类型的泛化能力尚未系统评估。

感知能力仍有提升空间

论文指出现有 VLM 和 VLA 在感知任务上"room for improvement"——当前模型在高速战斗中对细粒度视觉信号（如敌人细微动作、血量变化）的感知精度仍存在不足，通用基准（MME、VideoMME）上的小幅下降也印证了这一点。