本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。

论文详情

Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

2025-12-07 · 原文 · 翻译 · 2512.06951

本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。研究目标是在一个包含50个多样化、长视野家庭任务的逼真模拟基准测试中，实现高效的机器人操作，要求双手协调、移动导航和环境感知决策。论文主要解决了长视野执行、状态模糊性、缺乏恢复演示以及多模态动作分布等关键挑战。

4 分钟读完 6 张阅读卡独立研究者 (Independent Researchers)

一眼看懂封面预览

本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。

本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。
研究目标是在一个包含50个多样化、长视野家庭任务的逼真模拟基准测试中，实现高效的机器人操作，要求双手协调、移动导航和环境感知决策。
论文主要解决了长视野执行、状态模糊性、缺乏恢复演示以及多模态动作分布等关键挑战。

Card 01 研究单位

研究单位

独立研究者 (Independent Researchers)

Card 02 论文概述

论文概述

本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。
研究目标是在一个包含50个多样化、长视野家庭任务的逼真模拟基准测试中，实现高效的机器人操作，要求双手协调、移动导航和环境感知决策。
论文主要解决了长视野执行、状态模糊性、缺乏恢复演示以及多模态动作分布等关键挑战。

Card 03 核心贡献

核心贡献

提出了用于流匹配的相关噪声，改善了训练效率并实现了用于平滑动作序列的相关性感知修复。
引入了可学习的混合层注意力和System 2 阶段跟踪，用于解决视觉模糊状态并提供非马尔可夫上下文。
应用了多样本流匹配以减少梯度方差，同时分摊昂贵的视觉语言计算。
在推理时采用动作压缩（通过三次样条插值实现1.3倍加速）和针对挑战的特定校正规则，以弥补纯学习策略的不足。
使用可学习的任务嵌入取代文本处理，简化了模型输入，专门针对固定的50个任务集。

Card 04 方法描述

方法描述

方法基于 Pi0.5 架构构建，这是一个使用流匹配预测动作序列的视觉-语言-动作模型。
主要创新包括：1）通过从分布 N(0, βΣ + (1-β)I) 中采样来显式建模动作相关性结构；2）引入System 2 阶段预测和融合，提供任务阶段信息以区分模糊状态；3）采用可学习的KV缓存变换，使动作专家层能够关注所有VLM层的线性组合；4）设计了自定义注意力掩码以隔离可靠和嘈杂的输入。
训练使用多样本流匹配和Delta动作空间（带逐时间戳归一化），推理优化包括相关性感知的软修复和基于规则的动作校正。

Card 05 数据集与资源

数据集与资源

使用的数据集：BEHAVIOR-1K 基准测试，包含50个任务的10,000次专家演示。
模型规模：基于 PaliGemma 的VLM骨干和 Gemma 300M 架构的动作专家（约3亿参数）。视觉骨干为 SigLIP-So400m/14。
训练资源：主要训练在 8 张 H200 GPU 上进行，持续约15天。竞赛总预算约 13,000 美元。

Card 06 评估与结果

评估与结果

评估环境：BEHAVIOR 挑战赛，在 OmniGibson（基于NVIDIA Isaac Sim）模拟器中评估50个任务。
主要评估指标：平均部分成功率，结合任务完成率和子任务完成的积分。
关键实验结果：该方法在公共和私有排行榜上，所有50个任务的平均q-score达到26%，赢得了2025 BEHAVIOR挑战赛第一名。