研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号

论文详情

Can Explicit Physical Feasibility Benefit VLA Learning? An Empirical Study

2026-04-20 · 原文 · 翻译 · 2604.17896

研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号指出当前 VLA 模型通过模仿学习训练，但未显式监督如避障、运动学可行性等硬物理约束，导致策略可能无法可靠执行物理可行行为以障碍物感知操作为受控实验场景，验证显式可行性监督对物理可靠性和任务性能的影响

4 分钟读完 6 张阅读卡 University of Turku, Department of Computing, Finla…

一眼看懂封面预览

研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号

研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号
指出当前 VLA 模型通过模仿学习训练，但未显式监督如避障、运动学可行性等硬物理约束，导致策略可能无法可靠执行物理可行行为
以障碍物感知操作为受控实验场景，验证显式可行性监督对物理可靠性和任务性能的影响

Card 01 研究单位

研究单位

University of Turku, Department of Computing, Finland

Card 02 论文概述

论文概述

研究显式物理可行性监督是否能作为Vision-Language-Action (VLA) 模型的有效学习信号
指出当前 VLA 模型通过模仿学习训练，但未显式监督如避障、运动学可行性等硬物理约束，导致策略可能无法可靠执行物理可行行为
以障碍物感知操作为受控实验场景，验证显式可行性监督对物理可靠性和任务性能的影响

Card 03 核心贡献

核心贡献

将物理可行性监督问题形式化为 VLA 策略的学习问题，设计使用近障碍物到达任务的受控实验设置
实现最小化的可微可行性目标函数，以分离物理监督与模仿学习的效果
提供实证证据表明显式可行性监督可作为结构化学习信号，在有限数据下提升学习效率

Card 04 方法描述

方法描述

基于扩散的 VLA 策略框架，使用正向运动学将预测动作序列映射到机器人连杆位姿
计算机器人代表点到障碍物 OBB 的有符号距离，并减去连杆半径得到表面间隙
设计几何可行性损失 L_geo，使用平方合页损失惩罚低于安全裕度 δ 的间隙违规
总损失 L_total = L_MSE + λ·L_geo，障碍物几何和运动学仅在训练时使用，推理时仅需 RGB 观测和语言指令

Card 05 数据集与资源

数据集与资源

NVIDIA Isaac Sim 模拟环境中构建的自合成数据集，包含 Franka Arm 单臂场景
120 个训练片段，三视角 RGB 观测，采样频率 15 Hz，每片段 80 步
模型主干：RDT-1B (1.2B 参数)，最大开源扩散机器人操控基础模型
训练资源：2 张 NVIDIA A100 GPU，学习率 1×10^-4，2000 epochs

Card 06 评估与结果

评估与结果

在 Isaac Sim 中评估障碍物扰动下的策略行为（小扰动：0-0.10 m 平移；大扰动：位置重定位）
主要指标：最小间隙 d_min（安全）、目标距离 d_tgt（精度）、安全成功率 SSR(α, β)
小扰动下 40 片段：SSR(0.02, 0.10) 从 22.00% 提升至 43.50%，SSR(0.05, 0.15) 从 26.00% 提升至 51.50%
大扰动下 40 片段：SSR(0.02, 0.10) 从 8.25% 提升至 29.00%，同时改善安全性和到达精度
有限数据（40 片段）下效果最显著，数据增加（80/120 片段）后相对增益减小