返回列表 VLA / Vision-Language-Action 每日论文卡
Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge
本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。

论文详情

Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

2025-12-07 · 原文 · 翻译 · 2512.06951

本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。 研究目标是在一个包含50个多样化、长视野家庭任务的逼真模拟基准测试中,实现高效的机器人操作,要求双手协调、移动导航和环境感知决策。 论文主要解决了长视野执行、状态模糊性、缺乏恢复演示以及多模态动作分布等关键挑战。

4 分钟读完 6 张阅读卡 独立研究者 (Independent Researchers)
一眼看懂 封面预览

本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。

  • 本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。
  • 研究目标是在一个包含50个多样化、长视野家庭任务的逼真模拟基准测试中,实现高效的机器人操作,要求双手协调、移动导航和环境感知决策。
  • 论文主要解决了长视野执行、状态模糊性、缺乏恢复演示以及多模态动作分布等关键挑战。
Card 01 研究单位

研究单位

  • 独立研究者 (Independent Researchers)
Card 02 论文概述

论文概述

  • 本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。
  • 研究目标是在一个包含50个多样化、长视野家庭任务的逼真模拟基准测试中,实现高效的机器人操作,要求双手协调、移动导航和环境感知决策
  • 论文主要解决了长视野执行、状态模糊性、缺乏恢复演示以及多模态动作分布等关键挑战。
Card 03 核心贡献

核心贡献

  • 提出了用于流匹配的相关噪声,改善了训练效率并实现了用于平滑动作序列的相关性感知修复
  • 引入了可学习的混合层注意力System 2 阶段跟踪,用于解决视觉模糊状态并提供非马尔可夫上下文。
  • 应用了多样本流匹配以减少梯度方差,同时分摊昂贵的视觉语言计算。
  • 在推理时采用动作压缩(通过三次样条插值实现1.3倍加速)和针对挑战的特定校正规则,以弥补纯学习策略的不足。
  • 使用可学习的任务嵌入取代文本处理,简化了模型输入,专门针对固定的50个任务集。
Card 04 方法描述

方法描述

  • 方法基于 Pi0.5 架构构建,这是一个使用流匹配预测动作序列的视觉-语言-动作模型。
  • 主要创新包括:1)通过从分布 N(0, βΣ + (1-β)I) 中采样来显式建模动作相关性结构;2)引入System 2 阶段预测和融合,提供任务阶段信息以区分模糊状态;3)采用可学习的KV缓存变换,使动作专家层能够关注所有VLM层的线性组合;4)设计了自定义注意力掩码以隔离可靠和嘈杂的输入。
  • 训练使用多样本流匹配Delta动作空间(带逐时间戳归一化),推理优化包括相关性感知的软修复和基于规则的动作校正
Card 05 数据集与资源

数据集与资源

  • 使用的数据集:BEHAVIOR-1K 基准测试,包含50个任务的10,000次专家演示。
  • 模型规模:基于 PaliGemma 的VLM骨干和 Gemma 300M 架构的动作专家(约3亿参数)。视觉骨干为 SigLIP-So400m/14
  • 训练资源:主要训练在 8 张 H200 GPU 上进行,持续约15天。竞赛总预算约 13,000 美元
Card 06 评估与结果

评估与结果

  • 评估环境:BEHAVIOR 挑战赛,在 OmniGibson(基于NVIDIA Isaac Sim)模拟器中评估50个任务。
  • 主要评估指标:平均部分成功率,结合任务完成率和子任务完成的积分。
  • 关键实验结果:该方法在公共和私有排行榜上,所有50个任务的平均q-score达到26%,赢得了2025 BEHAVIOR挑战赛第一名。