返回列表 VLA / Vision-Language-Action 每日论文卡
CompliantVLA-adaptor: VLM-Guided Variable Impedance Action for Safe Contact-Rich Manipulation
提出 CompliantVLA-adaptor,一种将视觉语言模型(VLM)引导的变阻抗控制(VIC)集成到视觉语言动作(VLA)模型中的方法…

论文详情

CompliantVLA-adaptor: VLM-Guided Variable Impedance Action for Safe Contact-Rich Manipulation

2026-01-21 · 原文 · 翻译 · 2601.15541

提出 CompliantVLA-adaptor,一种将视觉语言模型(VLM)引导的变阻抗控制(VIC)集成到视觉语言动作(VLA)模型中的方法,用于安全接触密集型操作任务 解决现有 VLA 模型(如 RDT、Pi0.5、OpenVLA-oft)仅输出位置命令、缺乏力感知适应能力的问题,导致物理接触任务中的不安全或失败交互 核心目标:在保持 VLA 模型语义理解泛化能力的同时,赋予其物理柔顺性,实现安全有效的接触密集…

6 分钟读完 6 张阅读卡 Heng Zhang: 意大利技术研究院(IIT),等
一眼看懂 封面预览

提出 CompliantVLA-adaptor,一种将视觉语言模型(VLM)引导的变阻抗控制(VIC)集成到视觉语言动作(VLA)模型中的方法…

  • 提出 CompliantVLA-adaptor,一种将视觉语言模型(VLM)引导的变阻抗控制(VIC)集成到视觉语言动作(VLA)模型中的方法…
  • 解决现有 VLA 模型(如 RDT、Pi0.5、OpenVLA-oft)仅输出位置命令、缺乏力感知适应能力的问题,导致物理接触任务中的不安全或…
  • 核心目标:在保持 VLA 模型语义理解泛化能力的同时,赋予其物理柔顺性,实现安全有效的接触密集型操作
Card 01 研究单位

研究单位

  • Heng Zhang: 意大利技术研究院(IIT),等
  • Wei-Hsing Huang: 未明确标注
  • Qiyi Tong: 意大利技术研究院(IIT)
  • Gokhan Solak: 意大利技术研究院(IIT)
  • Puze Liu: 德国人工智能研究中心(DFKI),等
  • Kaidi Zhang: 未明确标注
  • Sheng Liu: 未明确标注
  • Jan Peters: 德国人工智能研究中心(DFKI),等
  • Yu She: 未明确标注
  • Arash Ajoudani: 意大利技术研究院(IIT)
Card 02 论文概述

论文概述

  • 提出 CompliantVLA-adaptor,一种将视觉语言模型(VLM)引导的变阻抗控制(VIC)集成到视觉语言动作(VLA)模型中的方法,用于安全接触密集型操作任务
  • 解决现有 VLA 模型(如 RDT、Pi0.5、OpenVLA-oft)仅输出位置命令、缺乏力感知适应能力的问题,导致物理接触任务中的不安全或失败交互
  • 核心目标:在保持 VLA 模型语义理解泛化能力的同时,赋予其物理柔顺性,实现安全有效的接触密集型操作
Card 03 核心贡献

核心贡献

  • 提出 VLM 增强的变阻抗控制模块,使 VLA 模型具备物理交互柔顺能力,VLM 根据视觉和语言上下文生成自适应刚度和阻尼参数
  • 开发了混合 VLA-VIC 控制架构,将 VLM 参数生成与 VIC 执行无缝集成,兼顾 VLA 泛化能力与柔顺控制安全性
  • 实现了双层安全系统:结合 VLM 参数调节与接触相位识别,通过实时力反馈确保交互力在安全阈值内
  • 在模拟和真实硬件上验证方法,显著提升任务成功率并减少力违规,展现了在精细力调节和柔顺适应方面的优势
Card 04 方法描述

方法描述

  • 接触相位识别:结合 VLM 视觉理解与力传感器反馈,识别 Free-motion、Approaching、Contact、Retreat 四种阶段
  • 多模态阻抗参数生成:VLM 处理腕部 RGB 图像、全局视角图像、语言指令和外部力信息,输出各向异性刚度矩阵 K 和阻尼矩阵 D
  • 力反馈调节:最终阻抗参数结合 VLM 生成值与实时力反馈,使用力缩放因子 α_force ∈ [0.2,1] 降低刚度确保安全
  • 混合控制架构:三个时间尺度——VLM 阻抗生成 (~1Hz)、VLA 动作分块 (~3Hz)、低层控制器 (1000Hz)
Card 05 数据集与资源

数据集与资源

  • 模拟任务数据集:来自 LIBEROManiSkill 基准的 8 个接触密集型任务
  • 真实机器人实验:7 自由度 Franka Emika Panda 机械臂
  • VLA 基线模型Pi0RDT-1BOpenVLA-oft
  • 视觉输入:Logitech USB 相机(全局视图)+ Intel RealSense D435i 深度相机(腕部视图)
  • 训练资源:4 张 NVIDIA RTX A6000 GPU
Card 06 评估与结果

评估与结果

  • 评估环境:模拟环境和真实机器人硬件
  • 主要评估指标:30N 力阈值下的任务成功率、力违规次数
  • 关键实验结果

- 模拟环境中,7/8 任务成功率提升,平均成功率从 9.86% 提升至 17.29%

- 机械约束任务(抽屉、炉灶旋钮)改进最显著

- 真实世界中,推箱任务刚度调节范围 [800,1000],擦白板任务刚度调节范围 [400,600]

- 基线 VLA 模型经常因力违规导致任务终止,CompliantVLA-adaptor 显著减少力违规,实现平稳过渡无突变