论文提出了 MoSS (Modular Sensory Stream)，这是一个用于将多种物理感官反馈（如触觉和力矩）集成到 Vision-L…

论文详情

Modular Sensory Stream for Integrating Physical Feedback in Vision-Language-Action Models

2026-04-25 · 原文 · 翻译 · 2604.23272

论文提出了 MoSS (Modular Sensory Stream)，这是一个用于将多种物理感官反馈（如触觉和力矩）集成到 Vision-Language-Action (VLA) 模型中的模块化框架。旨在解决现有 VLA 模型仅依赖视觉观测在接触密集型精细操作任务中的局限性，以及现有单一模态扩展方法无法有效利用多重异构物理信号的问题。通过引入解耦的模态流架构和两阶段训练策略，该框架能够可扩展地整合多种物理信…

5 分钟读完 6 张阅读卡论文作者为 Jimin Lee, Huiwon Jang, Myungkyu Koo, Jungwoo…

一眼看懂封面预览

论文提出了 MoSS (Modular Sensory Stream)，这是一个用于将多种物理感官反馈（如触觉和力矩）集成到 Vision-L…

论文提出了 MoSS (Modular Sensory Stream)，这是一个用于将多种物理感官反馈（如触觉和力矩）集成到 Vision-L…
旨在解决现有 VLA 模型仅依赖视觉观测在接触密集型精细操作任务中的局限性，以及现有单一模态扩展方法无法有效利用多重异构物理信号的问题。
通过引入解耦的模态流架构和两阶段训练策略，该框架能够可扩展地整合多种物理信号，实现互补的性能提升。

Card 01 研究单位

研究单位

论文作者为 Jimin Lee, Huiwon Jang, Myungkyu Koo, Jungwoo Park 和 Jinwoo Shin
基于第一作者及通讯作者的已知背景，研究单位主要归属于 KAIST (韩国科学技术院)

Card 02 论文概述

论文概述

论文提出了 MoSS (Modular Sensory Stream)，这是一个用于将多种物理感官反馈（如触觉和力矩）集成到 Vision-Language-Action (VLA) 模型中的模块化框架。
旨在解决现有 VLA 模型仅依赖视觉观测在接触密集型精细操作任务中的局限性，以及现有单一模态扩展方法无法有效利用多重异构物理信号的问题。
通过引入解耦的模态流架构和两阶段训练策略，该框架能够可扩展地整合多种物理信号，实现互补的性能提升。

Card 03 核心贡献

核心贡献

提出了 MoSS 框架，通过解耦模态流和联合跨模态自注意力机制，无缝增强预训练 VLA 以利用物理感官信号进行动作预测。
设计了两阶段训练策略，第一阶段冻结预训练参数以预对齐物理信号流，第二阶段联合微调，保护预训练知识并稳定优化。
引入了未来物理信号预测的辅助任务，帮助模型内化物理交互动态，更有效地利用反馈生成动作。
构建了包含触觉和力矩反馈的真实世界接触密集型操作任务，验证了 MoSS 能够实现多重物理信号的累积性能增益。

Card 04 方法描述

方法描述

基于 Diffusion-based VLA 架构，在其 Action Expert 模块上附加并行的模块化感官流，用于处理触觉和力矩等物理输入。
创新点在于联合跨模态自注意力层，各流独立计算 Queries, Keys, Values 后拼接进行共享注意力计算，实现双向跨模态推理，同时通过流解耦防止梯度干扰。
采用流匹配作为主要训练目标，结合未来物理信号预测的辅助损失，分物理对齐和联合微调两个阶段进行训练。

Card 05 数据集与资源

数据集与资源

评估任务包括 Unstack Cup, PnP Egg, Board Erase, Plug Insertion 四个真实世界的接触密集型机器人操作任务。
硬件平台使用 Franka Research 3 机械臂、Robotiq 2F-85 夹爪、AnySkin 触觉传感器以及机械臂关节力矩传感器。
实验基于预训练模型 GR00T N1.5 和 $\pi_0$，在合并的任务数据集上进行微调。
训练配置包括 GR00T N1.5 训练 60K iterations（batch size 16），物理预测损失权重 $\lambda_{phy}$ 设为 0.1。

Card 06 评估与结果

评估与结果

在真实机器人平台上与 GR00T N1.5, $\pi_0$, Tactile-VLA, ForceVLA, TA-VLA 等基线方法进行对比。
主要评估指标为任务成功率 (%)。
实验结果显示，MoSS 显著优于基线模型；例如在 GR00T N1.5 上集成触觉和力矩信号后，平均成功率从 20.8% 提升至 49.0%。
与现有方法在引入多模态时性能下降不同，MoSS 随着物理信号的增加表现出持续的性能累积增益。