研究如何将视觉语言模型（VLM）的规划和推理能力转化为物理世界的机器人动作，解决传统视觉语言动作（VLA）模型在稀缺、窄领域数据上微调后泛化能…

论文详情

Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert

2025-10-04 · 原文 · 翻译 · 2510.03896

研究如何将视觉语言模型（VLM）的规划和推理能力转化为物理世界的机器人动作，解决传统视觉语言动作（VLA）模型在稀缺、窄领域数据上微调后泛化能力差的问题提出使用稀疏3D轨迹作为中间表示，搭建VLM高层规划与动作专家低层执行之间的桥梁，实现"思考"与"行动"的真正解耦目标是实现无需任务特定微调的零样本部署，使动作专家能够泛化到新环境和物体

6 分钟读完 6 张阅读卡浙江大学（Zhejiang University）：Mingyu Liu, Zheng Huang…

一眼看懂封面预览

研究如何将视觉语言模型（VLM）的规划和推理能力转化为物理世界的机器人动作，解决传统视觉语言动作（VLA）模型在稀缺、窄领域数据上微调后泛化能…

研究如何将视觉语言模型（VLM）的规划和推理能力转化为物理世界的机器人动作，解决传统视觉语言动作（VLA）模型在稀缺、窄领域数据上微调后泛化能…
提出使用稀疏3D轨迹作为中间表示，搭建VLM高层规划与动作专家低层执行之间的桥梁，实现"思考"与"行动"的真正解耦
目标是实现无需任务特定微调的零样本部署，使动作专家能够泛化到新环境和物体

Card 01 研究单位

研究单位

浙江大学（Zhejiang University）：Mingyu Liu, Zheng Huang, Xiaoyi Lin, Muzhi Zhu, Canyu Zhao, Zongze Du, Hao Chen, Chunhua Shen
上海人工智能实验室（Shanghai Artificial Intelligence Laboratory）：Yating Wang, Haoyi Zhu

Card 02 论文概述

论文概述

研究如何将视觉语言模型（VLM）的规划和推理能力转化为物理世界的机器人动作，解决传统视觉语言动作（VLA）模型在稀缺、窄领域数据上微调后泛化能力差的问题
提出使用稀疏3D轨迹作为中间表示，搭建VLM高层规划与动作专家低层执行之间的桥梁，实现"思考"与"行动"的真正解耦
目标是实现无需任务特定微调的零样本部署，使动作专家能够泛化到新环境和物体

Card 03 核心贡献

核心贡献

首次提出基于可泛化动作专家的框架，使用稀疏3D轨迹作为清晰接口，完全解耦VLM高层规划与低层电机控制，实现零样本部署
提出"动作预训练-点云微调"（Action Pre-training, Pointcloud Fine-tuning）策略，使动作专家专注于几何轨迹细化而非语义解释
系统展现出强大的多视觉域、相机视角和自然语言指令泛化能力，在长程任务中达到60%平均成功率
创新性地在相机帧中预测路标点，保持VLM的视觉中心先验知识，避免学习复杂的相机到机器人坐标转换

Card 04 方法描述

方法描述

VLM规划阶段：VLM仅需生成粗略的3D路标点（waypoints），利用深度信息从2D锚点推理3D坐标，保留语言和推理能力
轨迹生成：使用B样条（B-spline）插值将稀疏路标点转换为连续平滑的末端执行器姿态轨迹
可泛化动作专家：基于3D Diffusion Policy架构的条件扩散模型，输入包括机器人本体状态、引导姿态和点云观测
两阶段训练：第一阶段在大批量纯轨迹数据上预训练（batch size可达31,824），第二阶段使用点云数据进行微调
在引导姿态中加入噪声（scale=0.1）模拟VLM生成轨迹的变异性，提高专家泛化能力

Card 05 数据集与资源

数据集与资源

模拟数据集：RoboTwin、CALVIN、LIBERO、RLBench，共50k轨迹
真实数据集：DROID（76,000条轨迹）、AgiBot World（10,000条）、BridgeV2（14,000条）
深度增强技术：FoundationStereo用于DROID，PromptDepthAnything用于AgiBot，MoGe用于BridgeV2
训练硬件：8块80GB NVIDIA A100 GPU
VLM微调：1000步，batch size 32
动作专家训练：预训练2天（batch size 32,768）+ 微调3天（batch size 256）

Card 06 评估与结果

评估与结果

基准测试：RoboTwin（11个任务）和ManiSkill模拟环境，以及真实世界Frank机器人平台
主要指标：任务成功率
关键结果：

- 短程任务：81%平均成功率（与DP3专家模型持平）

- 中程任务：73%平均成功率（超越所有基线）

- 长程任务：60%平均成功率（显著领先，Pi0仅14%）

- 零样本泛化：新颜色/物体/语义任务显著超越Pi0基线

- 视角泛化：域外视角性能下降最小（仅2-8%）

- 真实机器人：6个任务平均78.3%成功率（VLM+DP(PromptDepth)设置）