返回列表 VLA / Vision-Language-Action 每日论文卡
Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation
提出 Bi-VLA(Bilateral Control-Based Imitation Learning via Vision-Languag…

论文详情

Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation

2025-09-23 · 原文 · 翻译 · 2509.18865

提出 Bi-VLA(Bilateral Control-Based Imitation Learning via Vision-Language Fusion),将双侧控制(bilateral control)的位置和力信息与视觉和语言模态融合,实现单一模型执行多任务 解决先前双侧控制模仿学习方法(如 Bi-ACT)仅限于单任务执行的问题,通过视觉-语言融合实现灵活的任务切换 在两种真实机器人任务上进行验证:语言消…

6 分钟读完 6 张阅读卡 D3 Center, The University of Osaka
一眼看懂 封面预览

提出 Bi-VLA(Bilateral Control-Based Imitation Learning via Vision-Languag…

  • 提出 Bi-VLA(Bilateral Control-Based Imitation Learning via Vision-Languag…
  • 解决先前双侧控制模仿学习方法(如 Bi-ACT)仅限于单任务执行的问题,通过视觉-语言融合实现灵活的任务切换
  • 在两种真实机器人任务上进行验证:语言消歧任务(Two-Target Task)和视觉消歧任务(Two-Source Task),证明 Bi-V…
Card 01 研究单位

研究单位

  • D3 Center, The University of Osaka
  • Graduate School of Information Science and Technology, The University of Osaka
  • Graduate School of Maritime Sciences, Kobe University
Card 02 论文概述

论文概述

  • 提出 Bi-VLA(Bilateral Control-Based Imitation Learning via Vision-Language Fusion),将双侧控制(bilateral control)的位置和力信息与视觉和语言模态融合,实现单一模型执行多任务
  • 解决先前双侧控制模仿学习方法(如 Bi-ACT)仅限于单任务执行的问题,通过视觉-语言融合实现灵活的任务切换
  • 在两种真实机器人任务上进行验证:语言消歧任务(Two-Target Task)和视觉消歧任务(Two-Source Task),证明 Bi-VLA 能有效结合视觉和语言信息提升任务成功率
Card 03 核心贡献

核心贡献

  • 提出 Bi-VLA 框架,首次将视觉和语言特征融合到双侧控制模仿学习中,实现多任务统一建模
  • 证明单一模型可通过视觉-语言融合克服先前双侧控制方法的单任务限制,无需针对每个任务单独训练模型
  • 验证 SigLIP 语言编码器相比 DistilBERT 能实现更准确的指令对齐和任务执行
  • 开发多任务训练策略(Bi-VLA SigLIP-Mix),仅用 4 个原始演示即可实现跨任务泛化
Card 04 方法描述

方法描述

  • 数据收集:采用四通道双侧控制系统,leader 和 follower 机器人交换位置和扭矩信息,使用 DOB 和 RFOB 估计外部扭矩
  • 模型架构:基于 Transformer 的条件变分自编码器(CVAE),接收多模态输入(关节角度/速度/扭矩、RGB 图像、自然语言指令)
  • 视觉-语言融合:使用 EfficientNet 提取视觉特征,使用 SigLIP 编码语言指令,通过 FiLM(Feature-wise Linear Modulation)进行特征融合
  • 推理过程:模型根据当前 follower 状态、相机图像和语言指令预测 leader 机器人动作块(角度、速度、扭矩),实现闭环执行
Card 05 数据集与资源

数据集与资源

  • 数据集:Two-Target 任务(6 个演示:3 Up, 3 Down)和 Two-Source 任务(6 个演示),使用 DABI 数据增强方法将演示从 6 个扩展到 60 个
  • 机器人硬件OpenManipulator-X(ROBOTIS),4 个旋转关节 + 1 个夹爪关节,双机器人配置(leader + follower)
  • 视觉输入:两个 RGB 相机(ELP USBFHD08S-L36,640×360 分辨率),分别安装在天花板和夹爪上
  • 训练配置:四通道双侧控制频率 1000 Hz,图像采集频率 100 Hz,模型配置 4 层 encoder、7 层 decoder
Card 06 评估与结果

评估与结果

  • Two-Target 任务(语言消歧):Bi-VLA (SigLIP) 达到 90% 总体成功率,Bi-VLA (DistilBERT) 为 60%,Bi-ACT 仅为 50%
  • Two-Source 任务(视觉消歧):Bi-VLA (SigLIP) 达到 90% 总体成功率,与 Bi-ACT 的 95% 相当,证明语言融合在纯视觉任务中不会产生负面干扰
  • 未学习 3-球环境:Bi-VLA (SigLIP-Mix) 达到 75% 总体成功率,展现多任务泛化能力
  • 关键发现:SigLIP 相比 DistilBERT 提供更准确的语言对齐;Bi-VLA (SigLIP-Mix) 仅用 4 个原始演示即可实现多任务学习