返回列表 VLA / Vision-Language-Action 每日论文卡
FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation
提出了 FD-VLA (Force-Distilled Vision-Language-Action) 框架,旨在解决接触丰富型机器人操作任务…

论文详情

FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation

2026-02-02 · 原文 · 翻译 · 2602.02142

提出了 FD-VLA (Force-Distilled Vision-Language-Action) 框架,旨在解决接触丰富型机器人操作任务中对力量感知的需求。 核心创新是通过一个 力量蒸馏模块 从视觉和机器人状态输入中预测潜在的力量表示,实现无需物理力量传感器的力量感知推理。 该框架允许在广泛缺乏昂贵或脆弱力传感器的机器人平台上部署,降低了硬件成本和复杂性。

5 分钟读完 6 张阅读卡 新加坡国立大学 (National University of Singapore)
一眼看懂 封面预览

提出了 FD-VLA (Force-Distilled Vision-Language-Action) 框架,旨在解决接触丰富型机器人操作任务…

  • 提出了 FD-VLA (Force-Distilled Vision-Language-Action) 框架,旨在解决接触丰富型机器人操作任务…
  • 核心创新是通过一个 力量蒸馏模块 从视觉和机器人状态输入中预测潜在的力量表示,实现无需物理力量传感器的力量感知推理。
  • 该框架允许在广泛缺乏昂贵或脆弱力传感器的机器人平台上部署,降低了硬件成本和复杂性。
Card 01 研究单位

研究单位

  • 新加坡国立大学 (National University of Singapore)
  • 新加坡科技研究局 (Agency for Science, Technology and Research, A*STAR)
  • 南洋理工大学 (Nanyang Technological University)
  • 东方理工学院 (Eastern Institute of Technology, Ningbo)
  • 哈佛大学 (Harvard University)
Card 02 论文概述

论文概述

  • 提出了 FD-VLA (Force-Distilled Vision-Language-Action) 框架,旨在解决接触丰富型机器人操作任务中对力量感知的需求。
  • 核心创新是通过一个 力量蒸馏模块 从视觉和机器人状态输入中预测潜在的力量表示,实现无需物理力量传感器的力量感知推理。
  • 该框架允许在广泛缺乏昂贵或脆弱力传感器的机器人平台上部署,降低了硬件成本和复杂性。
Card 03 核心贡献

核心贡献

  • 提出了 FD-VLA 框架,将蒸馏后的力量标记注入到VLA模型中,以增强接触丰富型操作能力。
  • 设计了 力量蒸馏模块,通过将可学习查询标记与视觉和状态输入结合,来预测潜在的力量标记。
  • 该方法在无需物理传感器的情况下实现了力量感知推理,同时提供了额外的力-视觉-状态跨模态对齐。
Card 04 方法描述

方法描述

  • 整体框架基于预训练的 SmolVLM-2 视觉语言模型,采用 SignLIP 损失作为感知主干。
  • 核心模块 FDM 包含两个分支:预测分支和真实力量分支。训练时,预测分支通过注意力机制从视觉和状态嵌入中预测力量标记,并与由真实力量信号编码得到的标记进行对齐。
  • 引入了 方向性注意力掩码机制,将视觉和语言标记作为冻结的感知流,将状态和力量标记作为控制流,在VLM内部实现单向信息流动,以保留预训练语义。
  • 动作专家采用基于Transformer的策略头和 条件流匹配解码器 来生成动作序列。
Card 05 数据集与资源

数据集与资源

  • 使用真实机器人平台 UR5e 收集数据。
  • 数据采集设备包括 Azure Kinect 主摄像头和 RealSense D405 夹爪摄像头。
  • 为每个接触丰富型任务(擦白板、按紧急按钮、插头插入)收集了 50个专家演示
  • 模型主干基于 SmolVLA
Card 06 评估与结果

评估与结果

  • 在三个真实世界接触丰富型任务上进行了评估:擦白板、按紧急按钮、插头插入。每个任务进行 30次独立试验
  • 与基线模型 DP3π₀SmolVLA 进行对比,在有无力量输入的情况下均进行了评估。
  • FD-VLA 取得了最高的平均成功率(61.1%),显著优于其他基线。其中,在擦白板任务上成功率达 73.3%
  • 消融实验表明,使用可学习令牌的FDM优于直接使用真实力量编码或无FDM的设置。
  • 视觉泛化实验显示,模型在新背景和视觉扰动下保持了良好性能。