返回列表 VLA / Vision-Language-Action 每日论文卡
Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert
研究如何将视觉语言模型(VLM)的规划和推理能力转化为物理世界的机器人动作,解决传统视觉语言动作(VLA)模型在稀缺、窄领域数据上微调后泛化能…

论文详情

Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert

2025-10-04 · 原文 · 翻译 · 2510.03896

研究如何将视觉语言模型(VLM)的规划和推理能力转化为物理世界的机器人动作,解决传统视觉语言动作(VLA)模型在稀缺、窄领域数据上微调后泛化能力差的问题 提出使用稀疏3D轨迹作为中间表示,搭建VLM高层规划与动作专家低层执行之间的桥梁,实现"思考"与"行动"的真正解耦 目标是实现无需任务特定微调的零样本部署,使动作专家能够泛化到新环境和物体

6 分钟读完 6 张阅读卡 浙江大学(Zhejiang University):Mingyu Liu, Zheng Huang…
一眼看懂 封面预览

研究如何将视觉语言模型(VLM)的规划和推理能力转化为物理世界的机器人动作,解决传统视觉语言动作(VLA)模型在稀缺、窄领域数据上微调后泛化能…

  • 研究如何将视觉语言模型(VLM)的规划和推理能力转化为物理世界的机器人动作,解决传统视觉语言动作(VLA)模型在稀缺、窄领域数据上微调后泛化能…
  • 提出使用稀疏3D轨迹作为中间表示,搭建VLM高层规划与动作专家低层执行之间的桥梁,实现"思考"与"行动"的真正解耦
  • 目标是实现无需任务特定微调的零样本部署,使动作专家能够泛化到新环境和物体
Card 01 研究单位

研究单位

  • 浙江大学(Zhejiang University):Mingyu Liu, Zheng Huang, Xiaoyi Lin, Muzhi Zhu, Canyu Zhao, Zongze Du, Hao Chen, Chunhua Shen
  • 上海人工智能实验室(Shanghai Artificial Intelligence Laboratory):Yating Wang, Haoyi Zhu
Card 02 论文概述

论文概述

  • 研究如何将视觉语言模型(VLM)的规划和推理能力转化为物理世界的机器人动作,解决传统视觉语言动作(VLA)模型在稀缺、窄领域数据上微调后泛化能力差的问题
  • 提出使用稀疏3D轨迹作为中间表示,搭建VLM高层规划与动作专家低层执行之间的桥梁,实现"思考"与"行动"的真正解耦
  • 目标是实现无需任务特定微调的零样本部署,使动作专家能够泛化到新环境和物体
Card 03 核心贡献

核心贡献

  • 首次提出基于可泛化动作专家的框架,使用稀疏3D轨迹作为清晰接口,完全解耦VLM高层规划与低层电机控制,实现零样本部署
  • 提出"动作预训练-点云微调"(Action Pre-training, Pointcloud Fine-tuning)策略,使动作专家专注于几何轨迹细化而非语义解释
  • 系统展现出强大的多视觉域、相机视角和自然语言指令泛化能力,在长程任务中达到60%平均成功率
  • 创新性地在相机帧中预测路标点,保持VLM的视觉中心先验知识,避免学习复杂的相机到机器人坐标转换
Card 04 方法描述

方法描述

  • VLM规划阶段:VLM仅需生成粗略的3D路标点(waypoints),利用深度信息从2D锚点推理3D坐标,保留语言和推理能力
  • 轨迹生成:使用B样条(B-spline)插值将稀疏路标点转换为连续平滑的末端执行器姿态轨迹
  • 可泛化动作专家:基于3D Diffusion Policy架构的条件扩散模型,输入包括机器人本体状态、引导姿态和点云观测
  • 两阶段训练:第一阶段在大批量纯轨迹数据上预训练(batch size可达31,824),第二阶段使用点云数据进行微调
  • 在引导姿态中加入噪声(scale=0.1)模拟VLM生成轨迹的变异性,提高专家泛化能力
Card 05 数据集与资源

数据集与资源

  • 模拟数据集:RoboTwin、CALVIN、LIBERO、RLBench,共50k轨迹
  • 真实数据集:DROID(76,000条轨迹)、AgiBot World(10,000条)、BridgeV2(14,000条)
  • 深度增强技术:FoundationStereo用于DROID,PromptDepthAnything用于AgiBot,MoGe用于BridgeV2
  • 训练硬件:8块80GB NVIDIA A100 GPU
  • VLM微调:1000步,batch size 32
  • 动作专家训练:预训练2天(batch size 32,768)+ 微调3天(batch size 256)
Card 06 评估与结果

评估与结果

  • 基准测试:RoboTwin(11个任务)和ManiSkill模拟环境,以及真实世界Frank机器人平台
  • 主要指标:任务成功率
  • 关键结果

- 短程任务:81%平均成功率(与DP3专家模型持平)

- 中程任务:73%平均成功率(超越所有基线)

- 长程任务:60%平均成功率(显著领先,Pi0仅14%)

- 零样本泛化:新颜色/物体/语义任务显著超越Pi0基线

- 视角泛化:域外视角性能下降最小(仅2-8%)

- 真实机器人:6个任务平均78.3%成功率(VLM+DP(PromptDepth)设置)