返回列表 VLA / Vision-Language-Action 每日论文卡
Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study
研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号

论文详情

Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study

2026-04-20 · 原文 · 翻译 · 2604.17896

研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号 指出当前 VLA 模型通过模仿学习训练,但未显式监督如避障、运动学可行性等硬物理约束,导致策略可能无法可靠执行物理可行行为 以障碍物感知操作为受控实验场景,验证显式可行性监督对物理可靠性和任务性能的影响

4 分钟读完 6 张阅读卡 University of Turku, Department of Computing, Finla…
一眼看懂 封面预览

研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号

  • 研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号
  • 指出当前 VLA 模型通过模仿学习训练,但未显式监督如避障、运动学可行性等硬物理约束,导致策略可能无法可靠执行物理可行行为
  • 以障碍物感知操作为受控实验场景,验证显式可行性监督对物理可靠性和任务性能的影响
Card 01 研究单位

研究单位

  • University of Turku, Department of Computing, Finland
Card 02 论文概述

论文概述

  • 研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号
  • 指出当前 VLA 模型通过模仿学习训练,但未显式监督如避障、运动学可行性等硬物理约束,导致策略可能无法可靠执行物理可行行为
  • 以障碍物感知操作为受控实验场景,验证显式可行性监督对物理可靠性和任务性能的影响
Card 03 核心贡献

核心贡献

  • 将物理可行性监督问题形式化为 VLA 策略的学习问题,设计使用近障碍物到达任务的受控实验设置
  • 实现最小化的可微可行性目标函数,以分离物理监督与模仿学习的效果
  • 提供实证证据表明显式可行性监督可作为结构化学习信号,在有限数据下提升学习效率
Card 04 方法描述

方法描述

  • 基于扩散的 VLA 策略框架,使用正向运动学将预测动作序列映射到机器人连杆位姿
  • 计算机器人代表点到障碍物 OBB 的有符号距离,并减去连杆半径得到表面间隙
  • 设计几何可行性损失 L_geo,使用平方合页损失惩罚低于安全裕度 δ 的间隙违规
  • 总损失 L_total = L_MSE + λ·L_geo,障碍物几何和运动学仅在训练时使用,推理时仅需 RGB 观测和语言指令
Card 05 数据集与资源

数据集与资源

  • NVIDIA Isaac Sim 模拟环境中构建的自合成数据集,包含 Franka Arm 单臂场景
  • 120 个训练片段,三视角 RGB 观测,采样频率 15 Hz,每片段 80 步
  • 模型主干:RDT-1B (1.2B 参数),最大开源扩散机器人操控基础模型
  • 训练资源:2 张 NVIDIA A100 GPU,学习率 1×10^-4,2000 epochs
Card 06 评估与结果

评估与结果

  • 在 Isaac Sim 中评估障碍物扰动下的策略行为(小扰动:0-0.10 m 平移;大扰动:位置重定位)
  • 主要指标:最小间隙 d_min(安全)、目标距离 d_tgt(精度)、安全成功率 SSR(α, β)
  • 小扰动下 40 片段:SSR(0.02, 0.10) 从 22.00% 提升至 43.50%,SSR(0.05, 0.15) 从 26.00% 提升至 51.50%
  • 大扰动下 40 片段:SSR(0.02, 0.10) 从 8.25% 提升至 29.00%,同时改善安全性和到达精度
  • 有限数据(40 片段)下效果最显著,数据增加(80/120 片段)后相对增益减小