提出 LITEN（Learning from Inference-Time Execution），一种无需额外训练即可让机器人从推理时执行中学…

论文详情

Learning Affordances at Inference-Time for Vision-Language-Action Models

2025-10-22 · 原文 · 翻译 · 2510.19752

提出 LITEN（Learning from Inference-Time Execution），一种无需额外训练即可让机器人从推理时执行中学习的方法解决视觉语言动作模型（VLAs）在复杂长程任务中缺乏上下文自适应能力的核心问题通过两阶段迭代框架（推理阶段 + 评估阶段）实现对低层 VLA 能力的理解（affordances 学习）

5 分钟读完 6 张阅读卡 UC Berkeley - 主要研究机构（作者包括 Ameesh Shah, William Chen…

一眼看懂封面预览

提出 LITEN（Learning from Inference-Time Execution），一种无需额外训练即可让机器人从推理时执行中学…

提出 LITEN（Learning from Inference-Time Execution），一种无需额外训练即可让机器人从推理时执行中学…
解决视觉语言动作模型（VLAs）在复杂长程任务中缺乏上下文自适应能力的核心问题
通过两阶段迭代框架（推理阶段 + 评估阶段）实现对低层 VLA 能力的理解（affordances 学习）

Card 01 研究单位

研究单位

UC Berkeley - 主要研究机构（作者包括 Ameesh Shah, William Chen, Adwait Godbole, Federico Mora, Sanjit A. Seshia）
Physical Intelligence - 合作研究机构（Sergey Levine 所属）

Card 02 论文概述

论文概述

提出 LITEN（Learning from Inference-Time Execution），一种无需额外训练即可让机器人从推理时执行中学习的方法
解决视觉语言动作模型（VLAs）在复杂长程任务中缺乏上下文自适应能力的核心问题
通过两阶段迭代框架（推理阶段 + 评估阶段）实现对低层 VLA 能力的理解（affordances 学习）

Card 03 核心贡献

核心贡献

提出 LITEN 方法，允许高层 VLM 通过推理时与物理世界的交互来学习机器人的 affordances
设计结构化评估流程，通过多层提示链（subtask 成功与否 → 实际行为 → 失败原因推理）从非结构化视频轨迹中提取有用反馈
无需额外训练，可使用任意现成的 VLM 和 VLA，具有广泛的适用性
在三个真实机器人操作任务（Stacking、Emptying Bowls、Moving Off Table）上验证了方法的有效性

Card 04 方法描述

方法描述

高层 VLM（GPT-5-mini）：作为推理器（reasoner），负责将长程任务分解为子任务指令序列
低层 VLA（π₀.₅-DROID）：基于 DROID 数据集微调的视觉语言动作策略，负责执行具体子任务
两阶段迭代：

- 推理阶段：VLM 根据任务指令生成子任务计划，VLA 执行每个子任务

- 评估阶段：VLM 法官评估每个子任务执行结果，包括成功/失败判断、行为描述、失败原因分析

评估结果作为上下文反馈到下一次推理迭代，使 VLM 能逐步学习 VLA 的能力边界

Card 05 数据集与资源

数据集与资源

数据集：DROID 机器人操作数据集，用于 VLA 微调
实验任务：

- Stacking（堆叠任务）

- Emptying Bowls（清空碗任务）

- Moving Off Table（移出桌面任务）

训练数据：每个任务收集 150 条演示数据，用于微调 VLA
机器人平台：DROID Franka 设置（7-DoF Franka Emika Panda 机械臂 + 2F-85 Robotiq 夹爪）

Card 06 评估与结果

评估与结果

评估指标：完整任务成功率（五次迭代内），基于 10 次试验平均
主要结果：

- LITEN 随迭代次数增加持续提升成功率，显著优于基线方法

- No-Feedback 基线几乎无法完成任务，说明推理时学习的重要性

消融实验：

- 移除失败原因推理步骤后性能显著下降

- 仅保留成功/失败判断的版本表现最差

- 证明结构化评估流程的每个步骤都至关重要

关键发现：LITEN 特别擅长从两类失败中学习：（1）VLA 的语言指令偏好偏差；（2）物理属性导致的控制困难