一眼看懂
封面预览
研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号
- 研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号
- 指出当前 VLA 模型通过模仿学习训练,但未显式监督如避障、运动学可行性等硬物理约束,导致策略可能无法可靠执行物理可行行为
- 以障碍物感知操作为受控实验场景,验证显式可行性监督对物理可靠性和任务性能的影响
Card 01
研究单位
研究单位
- University of Turku, Department of Computing, Finland
Card 02
论文概述
论文概述
- 研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号
- 指出当前 VLA 模型通过模仿学习训练,但未显式监督如避障、运动学可行性等硬物理约束,导致策略可能无法可靠执行物理可行行为
- 以障碍物感知操作为受控实验场景,验证显式可行性监督对物理可靠性和任务性能的影响
Card 03
核心贡献
核心贡献
- 将物理可行性监督问题形式化为 VLA 策略的学习问题,设计使用近障碍物到达任务的受控实验设置
- 实现最小化的可微可行性目标函数,以分离物理监督与模仿学习的效果
- 提供实证证据表明显式可行性监督可作为结构化学习信号,在有限数据下提升学习效率
Card 04
方法描述
方法描述
- 基于扩散的 VLA 策略框架,使用正向运动学将预测动作序列映射到机器人连杆位姿
- 计算机器人代表点到障碍物 OBB 的有符号距离,并减去连杆半径得到表面间隙
- 设计几何可行性损失 L_geo,使用平方合页损失惩罚低于安全裕度 δ 的间隙违规
- 总损失 L_total = L_MSE + λ·L_geo,障碍物几何和运动学仅在训练时使用,推理时仅需 RGB 观测和语言指令
Card 05
数据集与资源
数据集与资源
- NVIDIA Isaac Sim 模拟环境中构建的自合成数据集,包含 Franka Arm 单臂场景
- 120 个训练片段,三视角 RGB 观测,采样频率 15 Hz,每片段 80 步
- 模型主干:RDT-1B (1.2B 参数),最大开源扩散机器人操控基础模型
- 训练资源:2 张 NVIDIA A100 GPU,学习率 1×10^-4,2000 epochs
Card 06
评估与结果
评估与结果
- 在 Isaac Sim 中评估障碍物扰动下的策略行为(小扰动:0-0.10 m 平移;大扰动:位置重定位)
- 主要指标:最小间隙 d_min(安全)、目标距离 d_tgt(精度)、安全成功率 SSR(α, β)
- 小扰动下 40 片段:SSR(0.02, 0.10) 从 22.00% 提升至 43.50%,SSR(0.05, 0.15) 从 26.00% 提升至 51.50%
- 大扰动下 40 片段:SSR(0.02, 0.10) 从 8.25% 提升至 29.00%,同时改善安全性和到达精度
- 有限数据(40 片段)下效果最显著,数据增加(80/120 片段)后相对增益减小