论文系统性地探讨了视觉-语言-动作（VLA）模型发展中的 10 个开放性挑战，这些挑战将决定该领域的未来研究方向

论文详情

10 Open Challenges Steering the Future of Vision-Language-Action Models

2025-11-08 · 原文 · 翻译 · 2511.05936

论文系统性地探讨了视觉-语言-动作（VLA）模型发展中的 10 个开放性挑战，这些挑战将决定该领域的未来研究方向 VLA 模型结合视觉观测和语言指令来生成通用化的机器人动作，是具身 AI（Embodied AI）领域的核心技术论文不仅列出挑战，还讨论了应对这些挑战的新兴技术趋势，包括层级规划、空间理解、世界建模等

5 分钟读完 6 张阅读卡 Soujanya Poria, Chia-Yu Hung, Ziwei Wang — 新加坡科技设计大…

一眼看懂封面预览

论文系统性地探讨了视觉-语言-动作（VLA）模型发展中的 10 个开放性挑战，这些挑战将决定该领域的未来研究方向

论文系统性地探讨了视觉-语言-动作（VLA）模型发展中的 10 个开放性挑战，这些挑战将决定该领域的未来研究方向
VLA 模型结合视觉观测和语言指令来生成通用化的机器人动作，是具身 AI（Embodied AI）领域的核心技术
论文不仅列出挑战，还讨论了应对这些挑战的新兴技术趋势，包括层级规划、空间理解、世界建模等

Card 01 研究单位

研究单位

Soujanya Poria, Chia-Yu Hung, Ziwei Wang — 新加坡科技设计大学 (SUTD)
Navonil Majumder — IBM Research
Amir Ali Bagherzadeh, Chuan Li — Amazon
Kenneth Kwok, Cheston Tan — 新加坡科技研究局 (A*STAR)
Jiajun Wu — 斯坦福大学
David Hsu — 新加坡国立大学 (NUS)

Card 02 论文概述

论文概述

论文系统性地探讨了视觉-语言-动作（VLA）模型发展中的 10 个开放性挑战，这些挑战将决定该领域的未来研究方向
VLA 模型结合视觉观测和语言指令来生成通用化的机器人动作，是具身 AI（Embodied AI）领域的核心技术
论文不仅列出挑战，还讨论了应对这些挑战的新兴技术趋势，包括层级规划、空间理解、世界建模等

Card 03 核心贡献

核心贡献

系统性地梳理并分析 VLA 模型面临的 10 个核心挑战：多模态感知与理解、鲁棒推理、高质量训练数据、模型评估、跨机器人动作泛化、资源效率、全身协调、安全保障、Agentic 框架集成、人机协作
提出一个通用 VLA 框架，整合高层规划器、低层动作专家、推理先于动作的范式
总结6 个新兴技术趋势：层级规划、空间理解提升、通用动作表示、世界动态建模、视觉生成模型数据合成、后训练
为 VLA 模型的未来研究提供了系统的路线图和方向性指导

Card 04 方法描述

方法描述

VLA 模型分类：将 VLA 模型分为离散动作模型（如 OpenVLA 采用动作 tokens 量化）和连续动作模型（如扩散策略），分析各自优缺点
层级规划框架：提出高层规划器（基于 LLM/VLM）分解任务为子任务，低层动作专家生成具体动作序列的架构
推理先于动作：引入中间推理层，使策略在生成动作前先产生语言推理trace，提高可解释性和鲁棒性
世界建模：讨论生成式建模和嵌入预测两种世界模型方法，用于模拟动作后果
数据合成：利用视频生成模型和世界模型合成训练数据，通过潜在于动作（latent actions）桥接视频与真实机器人动作空间

Card 05 数据集与资源

数据集与资源

主要使用 Open-X-Embodiment 数据集（包含约 70 个子数据集、超过 100 万条机器人任务轨迹）
DROID 数据集用于低层动作专家训练
评估基准包括 SimplerEnv、LIBERO、SimplerEval 等仿真环境，以及 WidowX、Franka 等真实机器人平台

Card 06 评估与结果

评估与结果

论文为综述性研究，主要通过定性分析讨论各项挑战的重要性
指出当前 VLA 模型在简单任务（如拾取放置、操作抽屉）上的错误率仍需接近零才能部署到复杂敏感环境
强调了仿真环境与真实世界性能之间存在的sim-to-real 差距，需要在环境细节、PD 参数等方面提升仿真保真度
讨论了多模态感知（触觉、音频）正在成为新的研究热点，VLATouch 等工作已展示触觉增强 VLA 性能的潜力