机器学习¶ 模型、训练、调参与踩坑记录。 自回归模型:BERT / GPT 与 Prefix-LM 架构详解 序列建模三大范式、双向 vs 因果注意力、Prefix-LM 为何是 VLA 的选择;含可交互注意力掩码 / 自回归生成 demo。