一眼看懂
封面预览
本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。
- 本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。
- 研究目标是在一个包含50个多样化、长视野家庭任务的逼真模拟基准测试中,实现高效的机器人操作,要求双手协调、移动导航和环境感知决策。
- 论文主要解决了长视野执行、状态模糊性、缺乏恢复演示以及多模态动作分布等关键挑战。
Card 01
研究单位
研究单位
- 独立研究者 (Independent Researchers)
Card 02
论文概述
论文概述
- 本文介绍了赢得 2025 BEHAVIOR 挑战赛第一名的视觉动作策略。
- 研究目标是在一个包含50个多样化、长视野家庭任务的逼真模拟基准测试中,实现高效的机器人操作,要求双手协调、移动导航和环境感知决策。
- 论文主要解决了长视野执行、状态模糊性、缺乏恢复演示以及多模态动作分布等关键挑战。
Card 03
核心贡献
核心贡献
- 提出了用于流匹配的相关噪声,改善了训练效率并实现了用于平滑动作序列的相关性感知修复。
- 引入了可学习的混合层注意力和System 2 阶段跟踪,用于解决视觉模糊状态并提供非马尔可夫上下文。
- 应用了多样本流匹配以减少梯度方差,同时分摊昂贵的视觉语言计算。
- 在推理时采用动作压缩(通过三次样条插值实现1.3倍加速)和针对挑战的特定校正规则,以弥补纯学习策略的不足。
- 使用可学习的任务嵌入取代文本处理,简化了模型输入,专门针对固定的50个任务集。
Card 04
方法描述
方法描述
- 方法基于 Pi0.5 架构构建,这是一个使用流匹配预测动作序列的视觉-语言-动作模型。
- 主要创新包括:1)通过从分布
N(0, βΣ + (1-β)I)中采样来显式建模动作相关性结构;2)引入System 2 阶段预测和融合,提供任务阶段信息以区分模糊状态;3)采用可学习的KV缓存变换,使动作专家层能够关注所有VLM层的线性组合;4)设计了自定义注意力掩码以隔离可靠和嘈杂的输入。 - 训练使用多样本流匹配和Delta动作空间(带逐时间戳归一化),推理优化包括相关性感知的软修复和基于规则的动作校正。
Card 05
数据集与资源
数据集与资源
- 使用的数据集:BEHAVIOR-1K 基准测试,包含50个任务的10,000次专家演示。
- 模型规模:基于 PaliGemma 的VLM骨干和 Gemma 300M 架构的动作专家(约3亿参数)。视觉骨干为 SigLIP-So400m/14。
- 训练资源:主要训练在 8 张 H200 GPU 上进行,持续约15天。竞赛总预算约 13,000 美元。
Card 06
评估与结果
评估与结果
- 评估环境:BEHAVIOR 挑战赛,在 OmniGibson(基于NVIDIA Isaac Sim)模拟器中评估50个任务。
- 主要评估指标:平均部分成功率,结合任务完成率和子任务完成的积分。
- 关键实验结果:该方法在公共和私有排行榜上,所有50个任务的平均q-score达到26%,赢得了2025 BEHAVIOR挑战赛第一名。