一眼看懂
封面预览
Vision-Language-Action (VLA) 模型虽能实现指令跟随的机械臂控制,但在双臂部署时存在安全隐患——双臂之间及手臂与抓取…
- Vision-Language-Action (VLA) 模型虽能实现指令跟随的机械臂控制,但在双臂部署时存在安全隐患——双臂之间及手臂与抓取…
- 提出 CoFreeVLA 框架,通过引入短视域自碰撞风险估计器来解决这一问题,该估计器结合本体感知、视觉嵌入和规划动作来预测碰撞可能性
- 风险估计器通过三种方式集成到控制循环:(1) 拦截危险动作 (2) 引导系统恢复到安全状态 (3) 通过风险感知反馈优化策略
Card 01
研究单位
研究单位
- 该论文作者来自机器人研究机构,具体单位未在HTML正文中明确列出
- 实验使用 AgileX 双臂移动机器人平台(PiPER-style bimanual mobile manipulator)
- 对比基线包括 RDT-1B 和 APEX
Card 02
论文概述
论文概述
- Vision-Language-Action (VLA) 模型虽能实现指令跟随的机械臂控制,但在双臂部署时存在安全隐患——双臂之间及手臂与抓取物体之间的自碰撞(self-collision)问题未被充分建模
- 提出 CoFreeVLA 框架,通过引入短视域自碰撞风险估计器来解决这一问题,该估计器结合本体感知、视觉嵌入和规划动作来预测碰撞可能性
- 风险估计器通过三种方式集成到控制循环:(1) 拦截危险动作 (2) 引导系统恢复到安全状态 (3) 通过风险感知反馈优化策略
Card 03
核心贡献
核心贡献
- 贡献点 1:提出 CoFreeVLA 框架,解决双臂VLA操作中双臂间及手臂-物体碰撞这一被忽视的问题
- 贡献点 2:设计自碰撞风险估计器,可从视觉观察和动作序列预测碰撞 likelihood,并集成到执行、恢复和策略优化中
- 贡献点 3:采用两阶段训练策略——基于模型检查器的合成数据预训练 + 真实机器人rollout后训练
- 贡献点 4:在 PiPER 双臂平台上进行五个双手操作任务的广泛实验,验证CoFreeVLA在降低碰撞风险同时保持任务性能的有效性
Card 04
方法描述
方法描述
- 自碰撞风险估计器:采用交叉注意力模块融合本体感知/动作流和视觉流,输出三个预测头——碰撞风险 $\hat{r}_t \in [0,1]$、最小距离 $\hat{d}_{min}$、碰撞时间 $\hat{\tau}_{ttc}$
- 风险门控机制:当 $\hat{r}_t > \tau_{\uparrow}$ 时阻止动作执行,使用迟滞阈值 $\tau_{\downarrow} < \tau_{\uparrow}$ 减少抖动
- 安全恢复机制:通过梯度下降优化风险塑形目标,生成恢复序列将系统驱动到安全集 $\mathcal{S}_{safe} = \{q: d_{min}(q) \geq d_0\}$
- 策略优化:在安全数据集 $\mathcal{D}_{safe}$ 上进行监督微调,使用风险加权损失 $w(s) = \exp(-\kappa E_{\phi}(s, A))$ 偏向无碰撞目标分布
- 训练损失:结合BCE损失(对假阴性加权更高)和回归损失 $\mathcal{L} = \lambda_{bce}BCE(\hat{r}_t, y_t^{bin}) + \lambda_d\\|\hat{d}_{min} - y_t^d\\|_2^2 + \lambda_{ttc}\\|\hat{\tau}_{ttc} - y_t^{ttc}\\|_1$
Card 05
数据集与资源
数据集与资源
- 数据集:五项双臂操作任务(Pouring Beans, Pen Cap Removal, Tool Handover, Tubes Placement, Cups Nesting),每任务10次试验
- 硬件平台:PiPER 风格双臂移动机械臂(基于 AgileX)
- VLA运行频率:10 Hz,低层控制器 30 Hz
- 风险估计器规模:轻量级网络,推理时间sub-5ms,可满足控制频率要求
- 训练策略:先使用基于模型检查器的合成碰撞标签预训练,再在真实机器人rollout上后训练校正
Card 06
评估与结果
评估与结果
- 评估环境:真实机器人双臂操作任务
- 主要指标:碰撞率(发生自碰撞的试验比例)、任务成功率
- 关键结果:
- 在高双臂干扰任务(Pouring Beans)中:RDT碰撞率从 8/10 降至 2/10,APEX从 6/10 降至 2/10
- 精度任务(Pen Cap Removal等)中,基线碰撞率本身较低(1/10),CoFreeVLA当前校准下略高(2-5/10)
- 任务成功率各方法相当(该研究中均为 1/10)
- 风险推理增加的延迟可忽略(sub-5ms/tick),通过迟滞机制控制阻止步骤比例
- 结论:CoFreeVLA在自干扰主导的场景中显著提升安全性,在精度场景中需进一步校准和阈值调优