返回列表 VLA / Vision-Language-Action 每日论文卡
Action Hallucination in Generative Visual-Language-Action Models
论文研究了 视觉-语言-动作模型 中的 动作幻觉 现象,即模型生成违反物理约束的动作。

论文详情

Action Hallucination in Generative Visual-Language-Action Models

2026-02-06 · 原文 · 翻译 · 2602.06339

论文研究了 视觉-语言-动作模型 中的 动作幻觉 现象,即模型生成违反物理约束的动作。 论文指出,动作幻觉部分源于可行机器人行为与常见模型架构之间的 结构性失配。 论文旨在为生成式机器人策略报告的经验性失败提供机制性解释,并指出在不放弃表达能力的前提下提高可靠性的原则性方向。

4 分钟读完 6 张阅读卡 论文作者为 Harold Soh 和 Eugene Lim(原文未明确列出具体所属机构名称)。
一眼看懂 封面预览

论文研究了 视觉-语言-动作模型 中的 动作幻觉 现象,即模型生成违反物理约束的动作。

  • 论文研究了 视觉-语言-动作模型 中的 动作幻觉 现象,即模型生成违反物理约束的动作。
  • 论文指出,动作幻觉部分源于可行机器人行为与常见模型架构之间的 结构性失配。
  • 论文旨在为生成式机器人策略报告的经验性失败提供机制性解释,并指出在不放弃表达能力的前提下提高可靠性的原则性方向。
Card 01 研究单位

研究单位

  • 论文作者为 Harold SohEugene Lim(原文未明确列出具体所属机构名称)。
Card 02 论文概述

论文概述

  • 论文研究了 视觉-语言-动作模型 中的 动作幻觉 现象,即模型生成违反物理约束的动作。
  • 论文指出,动作幻觉部分源于可行机器人行为与常见模型架构之间的 结构性失配
  • 论文旨在为生成式机器人策略报告的经验性失败提供机制性解释,并指出在不放弃表达能力的前提下提高可靠性的原则性方向。
Card 03 核心贡献

核心贡献

  • 提出了连续潜在头下无幻觉多模式覆盖的 拓扑不可能性结果,以及连接幻觉与解码器平滑性及模式分离的定量 等周下界
  • 提出了接触任务的 精度障碍分析,包括下界和 生成式精度三难困境(折叠、坍缩或产生幻觉),以及解释迭代扩散/流式生成为何有效的精细化步数权衡。
  • 提出了 验证引导规划 在长视程任务下的可靠性感知分析,明确了测试时计算何时有效、何时无效,以及为何自适应(几何放大)搜索在验证器噪声下至关重要。
Card 04 方法描述

方法描述

  • 使用拓扑学、测度界限和概率论证等基本数学工具,构建了动作幻觉的连贯理论。
  • 分析了三种结构性障碍:拓扑障碍(源于可行行为空间的非连通性)、精度障碍(源于接触任务中有效动作空间的低维性)和 视程障碍(源于长视程规划中的误差累积)。
  • 通过严格的定理和引理,形式化了这些障碍如何对生成式策略施加不可避免的权衡。
Card 05 数据集与资源

数据集与资源

  • 原文未明确列出所使用的数据集名称。
  • 文中提及并作为分析对象的模型包括 π0.5Gr00t N1MolmoActDiffusion PolicyRDT-1b 等。
  • 实验部分使用了合成数据(如双模式动作分布、接触流形)和真实机器人任务进行验证,但未报告具体的模型参数量或训练所用的计算资源(GPU/TPU)。
Card 06 评估与结果

评估与结果

  • 评估结合了理论证明与实验验证。理论评估基于严格的数学推导,实验评估在合成环境和任务中进行。
  • 主要评估指标为 幻觉概率,即生成动作或计划违反物理约束或任务目标的概率。
  • 关键结果表明:幻觉概率随 模式数量 增加而近似线性增长;幻觉概率随 间隙平滑比 (W/L) 增大而升高;在精度任务中,随着 容忍度 δ 降低(精度要求提高),幻觉概率急剧上升。实验趋势与理论下界一致。