提出 Bi-VLA（Bilateral Control-Based Imitation Learning via Vision-Languag…

论文详情

Bi-VLA: Bilateral Control-Based Imitation Learning via Vision-Language Fusion for Action Generation

2025-09-23 · 原文 · 翻译 · 2509.18865

提出 Bi-VLA（Bilateral Control-Based Imitation Learning via Vision-Language Fusion），将双侧控制（bilateral control）的位置和力信息与视觉和语言模态融合，实现单一模型执行多任务解决先前双侧控制模仿学习方法（如 Bi-ACT）仅限于单任务执行的问题，通过视觉-语言融合实现灵活的任务切换在两种真实机器人任务上进行验证：语言消…

6 分钟读完 6 张阅读卡 D3 Center, The University of Osaka

一眼看懂封面预览

提出 Bi-VLA（Bilateral Control-Based Imitation Learning via Vision-Languag…

提出 Bi-VLA（Bilateral Control-Based Imitation Learning via Vision-Languag…
解决先前双侧控制模仿学习方法（如 Bi-ACT）仅限于单任务执行的问题，通过视觉-语言融合实现灵活的任务切换
在两种真实机器人任务上进行验证：语言消歧任务（Two-Target Task）和视觉消歧任务（Two-Source Task），证明 Bi-V…

Card 01 研究单位

研究单位

D3 Center, The University of Osaka
Graduate School of Information Science and Technology, The University of Osaka
Graduate School of Maritime Sciences, Kobe University

Card 02 论文概述

论文概述

提出 Bi-VLA（Bilateral Control-Based Imitation Learning via Vision-Language Fusion），将双侧控制（bilateral control）的位置和力信息与视觉和语言模态融合，实现单一模型执行多任务
解决先前双侧控制模仿学习方法（如 Bi-ACT）仅限于单任务执行的问题，通过视觉-语言融合实现灵活的任务切换
在两种真实机器人任务上进行验证：语言消歧任务（Two-Target Task）和视觉消歧任务（Two-Source Task），证明 Bi-VLA 能有效结合视觉和语言信息提升任务成功率

Card 03 核心贡献

核心贡献

提出 Bi-VLA 框架，首次将视觉和语言特征融合到双侧控制模仿学习中，实现多任务统一建模
证明单一模型可通过视觉-语言融合克服先前双侧控制方法的单任务限制，无需针对每个任务单独训练模型
验证 SigLIP 语言编码器相比 DistilBERT 能实现更准确的指令对齐和任务执行
开发多任务训练策略（Bi-VLA SigLIP-Mix），仅用 4 个原始演示即可实现跨任务泛化

Card 04 方法描述

方法描述

数据收集：采用四通道双侧控制系统，leader 和 follower 机器人交换位置和扭矩信息，使用 DOB 和 RFOB 估计外部扭矩
模型架构：基于 Transformer 的条件变分自编码器（CVAE），接收多模态输入（关节角度/速度/扭矩、RGB 图像、自然语言指令）
视觉-语言融合：使用 EfficientNet 提取视觉特征，使用 SigLIP 编码语言指令，通过 FiLM（Feature-wise Linear Modulation）进行特征融合
推理过程：模型根据当前 follower 状态、相机图像和语言指令预测 leader 机器人动作块（角度、速度、扭矩），实现闭环执行

Card 05 数据集与资源

数据集与资源

数据集：Two-Target 任务（6 个演示：3 Up, 3 Down）和 Two-Source 任务（6 个演示），使用 DABI 数据增强方法将演示从 6 个扩展到 60 个
机器人硬件：OpenManipulator-X（ROBOTIS），4 个旋转关节 + 1 个夹爪关节，双机器人配置（leader + follower）
视觉输入：两个 RGB 相机（ELP USBFHD08S-L36，640×360 分辨率），分别安装在天花板和夹爪上
训练配置：四通道双侧控制频率 1000 Hz，图像采集频率 100 Hz，模型配置 4 层 encoder、7 层 decoder

Card 06 评估与结果

评估与结果

Two-Target 任务（语言消歧）：Bi-VLA (SigLIP) 达到 90% 总体成功率，Bi-VLA (DistilBERT) 为 60%，Bi-ACT 仅为 50%
Two-Source 任务（视觉消歧）：Bi-VLA (SigLIP) 达到 90% 总体成功率，与 Bi-ACT 的 95% 相当，证明语言融合在纯视觉任务中不会产生负面干扰
未学习 3-球环境：Bi-VLA (SigLIP-Mix) 达到 75% 总体成功率，展现多任务泛化能力
关键发现：SigLIP 相比 DistilBERT 提供更准确的语言对齐；Bi-VLA (SigLIP-Mix) 仅用 4 个原始演示即可实现多任务学习