DAM-VLA——手臂与夹爪解耦，三星研究院的动态动作VLA刷新机器人操控SOTA

一、背景

视觉-语言-动作（VLA）模型正成为机器人智能化的核心架构，但现有主流方法（如OpenVLA、π0、CogACT）存在一个根本性缺陷：用同一个动作模型统一处理所有类型的动作。这种「一刀切」的设计在面对机器人操控任务时暴露出两大内在矛盾。

从任务特性来看，机器人操控存在两种本质不同的动作类型：手臂大幅度运动（粗动作）需要全局场景理解、路径约束宽松；夹爪精细操作（精细动作）需要局部精细聚焦、精确抓取姿态、容错率极低。这两种动作在路径约束、视觉注意力和数据分布上有本质差异，用同一个模型兼顾「粗定位」与「精细操作」必然产生冲突。

此外，传统方法缺乏对动作类型的主动感知与路由机制，无法根据当前操控阶段动态分配合适的推理资源，导致在长时程复杂任务中错误率随步骤增加而快速累积。DAM-VLA（Dynamic Action Model-Based Vision-Language-Action）首次将手臂运动与夹爪操作解耦建模，配合双尺度加权机制实现了精准高效的机器人操控。

二、核心方法

DAM-VLA 的核心架构包含三大组件，各司其职，协同实现手臂-夹爪的精准解耦。

模块一：双通道视觉编码与VLM骨架

同时采用DINOv2和SigLIP两种视觉编码器，输出三类特征：普通视觉token用于多模态融合；DINOv2的class token（全局视觉表征）专门服务手臂运动模型；DINOv2的register token（局部视觉表征）专门服务夹爪操作模型。LLaMA-2的浅层输出用于动作路由决策，深层输出用于动作预测。这一设计使「全局感知」与「局部精细」的视觉信息分别流向对应的动作模型。

模块二：VLM驱动的动作路由机制

利用VLM的推理能力判断当前处于哪种操控阶段，通过可学习路由权重w动态选择激活手臂运动模型（w<0.5）或夹爪操作模型（w≥0.5）。两个专用DiT扩散模型并行训练：手臂运动模型接收全局视觉特征，预测大范围粗动作；夹爪操作模型接收局部视觉特征，精细预测夹爪动作。动作路由实现了「该全局时全局，该精细时精细」的智能切换。

模块三：双尺度动作加权机制

轨迹级权重采用非对称高斯分布（前沿σ=6宽、后沿σ=2窄），在夹爪状态转换点前后施加差异化权重，反映「操控前需要更充分准备」的人类直觉；Action-chunk级权重采用指数衰减（γ=0.8），确保近期动作预测权重更大。两层加权机制联合作用，显著提升了操控的时序一致性。

三、亮点总结创新点一：真实机器人操控平均成功率86.8%

在Franka机器人的pick-and-place任务（80次试验）中，DAM-VLA平均成功率达86.8%，远超CogACT的62.9%（提升23.9个百分点）。分布内任务成功率91.4%（vs CogACT 65.7%），分布外泛化成功率82.2%（vs CogACT 60.0%），在仿真和真实环境中全面刷新SOTA。

创新点二：长时程任务最终成功率56%，超越所有基线

在FurnitureBench One-Leg组装任务（连续5步操控）中，DAM-VLA最终成功率56%，远超CogACT的42%和OpenVLA的29%。消融实验显示，双尺度加权机制是核心贡献，去掉后性能大幅下降，证明其对长时程动作连贯性的不可替代性。

创新点三：DINOv2 class/register token分工的关键发现

研究首次系统验证了DINOv2的class token与register token具有天然的全局-局部信息分工——前者包含场景级全局语义，后者包含精细局部几何信息。将两类token分别路由给粗动作和精细动作模型，无需额外的特征对齐训练，即可让模型的「视觉感知」与「操控阶段」高度匹配，为未来VLA模型的视觉编码设计提供了重要的实证依据。

──────────────────────────────────────────

上述内容包含AI辅助生成，更详细信息参见两个链接论文链接：https://arxiv.org/abs/2603.00926 解读来源：https://research.samsung.com/blog/DAM-VLA-A-Dynamic-Action-Model-Based-Vision-Language-Action-Framework-for-Robot-Manipulation