研究 Vision-Language-Action (VLA) 模型中的 "错误完成"（False Completion）失败模式，即策略过…

论文详情

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

2026-01-23 · 原文 · 翻译 · 2601.16667

研究 Vision-Language-Action (VLA) 模型中的 "错误完成"（False Completion）失败模式，即策略过早终止或宣布成功，尽管目标尚未达成识别问题根源为模态不平衡（modality imbalance）：模型过度依赖内部本体感觉状态而忽视视觉证据，导致"状态主导偏见（state-dominant bias）" 提出 ReViP 框架，通过视觉-本体感觉再平衡（Vision…

5 分钟读完 6 张阅读卡中山大学，中国

一眼看懂封面预览

研究 Vision-Language-Action (VLA) 模型中的 "错误完成"（False Completion）失败模式，即策略过…

研究 Vision-Language-Action (VLA) 模型中的 "错误完成"（False Completion）失败模式，即策略过…
识别问题根源为模态不平衡（modality imbalance）：模型过度依赖内部本体感觉状态而忽视视觉证据，导致"状态主导偏见（state…
提出 ReViP 框架，通过视觉-本体感觉再平衡（Vision-Proprioception Rebalance）增强视觉接地和在扰动下的…

Card 01 研究单位

研究单位

中山大学，中国
深圳循环区域研究所，中国
北京理工大学，中国
鹏城实验室，深圳，中国
机器智能与高级计算教育部重点实验室，中国
广东省信息安全技术重点实验室，中国

Card 02 论文概述

论文概述

研究 Vision-Language-Action (VLA) 模型中的 "错误完成"（False Completion） 失败模式，即策略过早终止或宣布成功，尽管目标尚未达成
识别问题根源为 模态不平衡（modality imbalance）：模型过度依赖内部本体感觉状态而忽视视觉证据，导致"状态主导偏见（state-dominant bias）"
提出 ReViP 框架，通过 视觉-本体感觉再平衡（Vision-Proprioception Rebalance） 增强视觉接地和在扰动下的鲁棒性

Card 03 核心贡献

核心贡献

识别并系统研究 VLA 模型中的 错误完成 失败模式，揭示其由模态不平衡导致的状态主导偏见
构建首个 False-Completion Benchmark Suite，包含 8 个任务和三种受控扰动（Object Drop、Distractor Swap、Relayout）
提出 ReViP 框架，包含 Task-Stage Observer 用于提取进度感知的视觉线索，以及 Task-Stage Enhancer 通过 TS-FiLM 进行特征级模态再平衡
在 LIBERO、RoboTwin 2.0 和真实世界实验中取得 SOTA 性能，比 π₀ 模型提升 26%

Card 04 方法描述

方法描述

Task-Stage Observer (TSO)：使用外部 VLM（如 Qwen2.5-VL）对当前观察和指令进行任务相关推理，提取进度感知的视觉线索，反映任务进度和环境状态
Task-Stage Enhancer (TSE)：将 TSO 提取的线索通过 Vision-Proprioception Feature-wise Linear Modulation (TS-FiLM) 注入策略，自适应地平衡语义感知和本体感觉动态
动作预测采用 Flow Matching 方法，基于调制的特征预测动作块

Card 05 数据集与资源

数据集与资源

数据集：LIBERO（空间、目标、目标、长程）、RoboTwin 2.0（双臂）、自建的 False-Completion Benchmark
骨干模型：π₀ (pi_0)
TSO 模型：Qwen2.5-VL-3B（ReViP）、Qwen2.5-VL-72B（ReViP*）
训练资源：8×H100 GPUs (80GB)，batch size 32，60k 训练步

Card 06 评估与结果

评估与结果

False-Completion Benchmark：ReViP 达到 59% 成功率，ReViP* 达到 62%，比 π₀-Fast（44%）高 18%，比 π₀（36%）高 26%
LIBERO：ReViP 平均 95.9% 成功率，ReViP* 达到 96.7%（最高），超越 π₀ 的 94.2%
RoboTwin 2.0（双臂）：ReViP 平均 21% 成功率，显著领先 RDT 和 π₀
在 Object Drop、Distractor Swap、Relayout 三种扰动下均有效缓解错误完成