CoFreeVLA: Collision-Free Dual-Arm Manipulation via Vision-Language-Action Model and Risk Estimation

一眼看懂封面预览

Vision-Language-Action (VLA) 模型虽能实现指令跟随的机械臂控制，但在双臂部署时存在安全隐患——双臂之间及手臂与抓取…

Card 01 研究单位

研究单位

Card 02 论文概述

Vision-Language-Action (VLA) 模型虽能实现指令跟随的机械臂控制，但在双臂部署时存在安全隐患——双臂之间及手臂与抓取物体之间的自碰撞（self-collision）问题未被充分建模
提出 CoFreeVLA 框架，通过引入短视域自碰撞风险估计器来解决这一问题，该估计器结合本体感知、视觉嵌入和规划动作来预测碰撞可能性
风险估计器通过三种方式集成到控制循环：(1) 拦截危险动作 (2) 引导系统恢复到安全状态 (3) 通过风险感知反馈优化策略

Card 03 核心贡献

Card 04 方法描述

自碰撞风险估计器：采用交叉注意力模块融合本体感知/动作流和视觉流，输出三个预测头——碰撞风险 $\hat{r}_t \in [0,1]$、最小距离 $\hat{d}_{min}$、碰撞时间 $\hat{\tau}_{ttc}$
风险门控机制：当 $\hat{r}_t > \tau_{\uparrow}$ 时阻止动作执行，使用迟滞阈值 $\tau_{\downarrow} < \tau_{\uparrow}$ 减少抖动
安全恢复机制：通过梯度下降优化风险塑形目标，生成恢复序列将系统驱动到安全集 $\mathcal{S}_{safe} = \{q: d_{min}(q) \geq d_0\}$
策略优化：在安全数据集 $\mathcal{D}_{safe}$ 上进行监督微调，使用风险加权损失 $w(s) = \exp(-\kappa E_{\phi}(s, A))$ 偏向无碰撞目标分布
训练损失：结合BCE损失（对假阴性加权更高）和回归损失 $\mathcal{L} = \lambda_{bce}BCE(\hat{r}_t, y_t^{bin}) + \lambda_d\\|\hat{d}_{min} - y_t^d\\|_2^2 + \lambda_{ttc}\\|\hat{\tau}_{ttc} - y_t^{ttc}\\|_1$

Card 05 数据集与资源

数据集：五项双臂操作任务（Pouring Beans, Pen Cap Removal, Tool Handover, Tubes Placement, Cups Nesting），每任务10次试验
硬件平台：PiPER 风格双臂移动机械臂（基于 AgileX）
VLA运行频率：10 Hz，低层控制器 30 Hz
风险估计器规模：轻量级网络，推理时间sub-5ms，可满足控制频率要求
训练策略：先使用基于模型检查器的合成碰撞标签预训练，再在真实机器人rollout上后训练校正

Card 06 评估与结果

- 在高双臂干扰任务（Pouring Beans）中：RDT碰撞率从 8/10 降至 2/10，APEX从 6/10 降至 2/10

- 精度任务（Pen Cap Removal等）中，基线碰撞率本身较低（1/10），CoFreeVLA当前校准下略高（2-5/10）

- 任务成功率各方法相当（该研究中均为 1/10）

- 风险推理增加的延迟可忽略（sub-5ms/tick），通过迟滞机制控制阻止步骤比例