一眼看懂
封面预览
提出 CompliantVLA-adaptor,一种将视觉语言模型(VLM)引导的变阻抗控制(VIC)集成到视觉语言动作(VLA)模型中的方法…
- 提出 CompliantVLA-adaptor,一种将视觉语言模型(VLM)引导的变阻抗控制(VIC)集成到视觉语言动作(VLA)模型中的方法…
- 解决现有 VLA 模型(如 RDT、Pi0.5、OpenVLA-oft)仅输出位置命令、缺乏力感知适应能力的问题,导致物理接触任务中的不安全或…
- 核心目标:在保持 VLA 模型语义理解泛化能力的同时,赋予其物理柔顺性,实现安全有效的接触密集型操作
Card 01
研究单位
研究单位
- Heng Zhang: 意大利技术研究院(IIT),等
- Wei-Hsing Huang: 未明确标注
- Qiyi Tong: 意大利技术研究院(IIT)
- Gokhan Solak: 意大利技术研究院(IIT)
- Puze Liu: 德国人工智能研究中心(DFKI),等
- Kaidi Zhang: 未明确标注
- Sheng Liu: 未明确标注
- Jan Peters: 德国人工智能研究中心(DFKI),等
- Yu She: 未明确标注
- Arash Ajoudani: 意大利技术研究院(IIT)
Card 02
论文概述
论文概述
- 提出 CompliantVLA-adaptor,一种将视觉语言模型(VLM)引导的变阻抗控制(VIC)集成到视觉语言动作(VLA)模型中的方法,用于安全接触密集型操作任务
- 解决现有 VLA 模型(如 RDT、Pi0.5、OpenVLA-oft)仅输出位置命令、缺乏力感知适应能力的问题,导致物理接触任务中的不安全或失败交互
- 核心目标:在保持 VLA 模型语义理解泛化能力的同时,赋予其物理柔顺性,实现安全有效的接触密集型操作
Card 03
核心贡献
核心贡献
- 提出 VLM 增强的变阻抗控制模块,使 VLA 模型具备物理交互柔顺能力,VLM 根据视觉和语言上下文生成自适应刚度和阻尼参数
- 开发了混合 VLA-VIC 控制架构,将 VLM 参数生成与 VIC 执行无缝集成,兼顾 VLA 泛化能力与柔顺控制安全性
- 实现了双层安全系统:结合 VLM 参数调节与接触相位识别,通过实时力反馈确保交互力在安全阈值内
- 在模拟和真实硬件上验证方法,显著提升任务成功率并减少力违规,展现了在精细力调节和柔顺适应方面的优势
Card 04
方法描述
方法描述
- 接触相位识别:结合 VLM 视觉理解与力传感器反馈,识别 Free-motion、Approaching、Contact、Retreat 四种阶段
- 多模态阻抗参数生成:VLM 处理腕部 RGB 图像、全局视角图像、语言指令和外部力信息,输出各向异性刚度矩阵 K 和阻尼矩阵 D
- 力反馈调节:最终阻抗参数结合 VLM 生成值与实时力反馈,使用力缩放因子 α_force ∈ [0.2,1] 降低刚度确保安全
- 混合控制架构:三个时间尺度——VLM 阻抗生成 (~1Hz)、VLA 动作分块 (~3Hz)、低层控制器 (1000Hz)
Card 05
数据集与资源
数据集与资源
- 模拟任务数据集:来自 LIBERO 和 ManiSkill 基准的 8 个接触密集型任务
- 真实机器人实验:7 自由度 Franka Emika Panda 机械臂
- VLA 基线模型:Pi0、RDT-1B、OpenVLA-oft
- 视觉输入:Logitech USB 相机(全局视图)+ Intel RealSense D435i 深度相机(腕部视图)
- 训练资源:4 张 NVIDIA RTX A6000 GPU
Card 06
评估与结果
评估与结果
- 评估环境:模拟环境和真实机器人硬件
- 主要评估指标:30N 力阈值下的任务成功率、力违规次数
- 关键实验结果:
- 模拟环境中,7/8 任务成功率提升,平均成功率从 9.86% 提升至 17.29%
- 机械约束任务(抽屉、炉灶旋钮)改进最显著
- 真实世界中,推箱任务刚度调节范围 [800,1000],擦白板任务刚度调节范围 [400,600]
- 基线 VLA 模型经常因力违规导致任务终止,CompliantVLA-adaptor 显著减少力违规,实现平稳过渡无突变