返回列表 VLA / Vision-Language-Action 每日论文卡
Learning Affordances at Inference-Time for Vision-Language-Action Models
提出 LITEN(Learning from Inference-Time Execution),一种无需额外训练即可让机器人从推理时执行中学…

论文详情

Learning Affordances at Inference-Time for Vision-Language-Action Models

2025-10-22 · 原文 · 翻译 · 2510.19752

提出 LITEN(Learning from Inference-Time Execution),一种无需额外训练即可让机器人从推理时执行中学习的方法 解决视觉语言动作模型(VLAs)在复杂长程任务中缺乏上下文自适应能力的核心问题 通过两阶段迭代框架(推理阶段 + 评估阶段)实现对低层 VLA 能力的理解(affordances 学习)

5 分钟读完 6 张阅读卡 UC Berkeley - 主要研究机构(作者包括 Ameesh Shah, William Chen…
一眼看懂 封面预览

提出 LITEN(Learning from Inference-Time Execution),一种无需额外训练即可让机器人从推理时执行中学…

  • 提出 LITEN(Learning from Inference-Time Execution),一种无需额外训练即可让机器人从推理时执行中学…
  • 解决视觉语言动作模型(VLAs)在复杂长程任务中缺乏上下文自适应能力的核心问题
  • 通过两阶段迭代框架(推理阶段 + 评估阶段)实现对低层 VLA 能力的理解(affordances 学习)
Card 01 研究单位

研究单位

  • UC Berkeley - 主要研究机构(作者包括 Ameesh Shah, William Chen, Adwait Godbole, Federico Mora, Sanjit A. Seshia)
  • Physical Intelligence - 合作研究机构(Sergey Levine 所属)
Card 02 论文概述

论文概述

  • 提出 LITEN(Learning from Inference-Time Execution),一种无需额外训练即可让机器人从推理时执行中学习的方法
  • 解决视觉语言动作模型(VLAs)在复杂长程任务中缺乏上下文自适应能力的核心问题
  • 通过两阶段迭代框架(推理阶段 + 评估阶段)实现对低层 VLA 能力的理解(affordances 学习)
Card 03 核心贡献

核心贡献

  • 提出 LITEN 方法,允许高层 VLM 通过推理时与物理世界的交互来学习机器人的 affordances
  • 设计结构化评估流程,通过多层提示链(subtask 成功与否 → 实际行为 → 失败原因推理)从非结构化视频轨迹中提取有用反馈
  • 无需额外训练,可使用任意现成的 VLM 和 VLA,具有广泛的适用性
  • 在三个真实机器人操作任务(Stacking、Emptying Bowls、Moving Off Table)上验证了方法的有效性
Card 04 方法描述

方法描述

  • 高层 VLM(GPT-5-mini):作为推理器(reasoner),负责将长程任务分解为子任务指令序列
  • 低层 VLA(π₀.₅-DROID):基于 DROID 数据集微调的视觉语言动作策略,负责执行具体子任务
  • 两阶段迭代

- 推理阶段:VLM 根据任务指令生成子任务计划,VLA 执行每个子任务

- 评估阶段:VLM 法官评估每个子任务执行结果,包括成功/失败判断、行为描述、失败原因分析

  • 评估结果作为上下文反馈到下一次推理迭代,使 VLM 能逐步学习 VLA 的能力边界
Card 05 数据集与资源

数据集与资源

  • 数据集:DROID 机器人操作数据集,用于 VLA 微调
  • 实验任务

- Stacking(堆叠任务)

- Emptying Bowls(清空碗任务)

- Moving Off Table(移出桌面任务)

  • 训练数据:每个任务收集 150 条演示数据,用于微调 VLA
  • 机器人平台:DROID Franka 设置(7-DoF Franka Emika Panda 机械臂 + 2F-85 Robotiq 夹爪)
Card 06 评估与结果

评估与结果

  • 评估指标:完整任务成功率(五次迭代内),基于 10 次试验平均
  • 主要结果

- LITEN 随迭代次数增加持续提升成功率,显著优于基线方法

- No-Feedback 基线几乎无法完成任务,说明推理时学习的重要性

  • 消融实验

- 移除失败原因推理步骤后性能显著下降

- 仅保留成功/失败判断的版本表现最差

- 证明结构化评估流程的每个步骤都至关重要

  • 关键发现:LITEN 特别擅长从两类失败中学习:(1)VLA 的语言指令偏好偏差;(2)物理属性导致的控制困难