论文研究了视觉-语言-动作模型中的动作幻觉现象，即模型生成违反物理约束的动作。

论文详情

Action Hallucination in Generative Visual-Language-Action Models

2026-02-06 · 原文 · 翻译 · 2602.06339

论文研究了视觉-语言-动作模型中的动作幻觉现象，即模型生成违反物理约束的动作。论文指出，动作幻觉部分源于可行机器人行为与常见模型架构之间的结构性失配。论文旨在为生成式机器人策略报告的经验性失败提供机制性解释，并指出在不放弃表达能力的前提下提高可靠性的原则性方向。

4 分钟读完 6 张阅读卡论文作者为 Harold Soh 和 Eugene Lim（原文未明确列出具体所属机构名称）。

一眼看懂封面预览

论文研究了视觉-语言-动作模型中的动作幻觉现象，即模型生成违反物理约束的动作。

论文研究了视觉-语言-动作模型中的动作幻觉现象，即模型生成违反物理约束的动作。
论文指出，动作幻觉部分源于可行机器人行为与常见模型架构之间的结构性失配。
论文旨在为生成式机器人策略报告的经验性失败提供机制性解释，并指出在不放弃表达能力的前提下提高可靠性的原则性方向。

Card 01 研究单位

研究单位

论文作者为 Harold Soh 和 Eugene Lim（原文未明确列出具体所属机构名称）。

Card 02 论文概述

论文概述

论文研究了 视觉-语言-动作模型 中的 动作幻觉 现象，即模型生成违反物理约束的动作。
论文指出，动作幻觉部分源于可行机器人行为与常见模型架构之间的 结构性失配。
论文旨在为生成式机器人策略报告的经验性失败提供机制性解释，并指出在不放弃表达能力的前提下提高可靠性的原则性方向。

Card 03 核心贡献

核心贡献

提出了连续潜在头下无幻觉多模式覆盖的 拓扑不可能性结果，以及连接幻觉与解码器平滑性及模式分离的定量 等周下界。
提出了接触任务的 精度障碍分析，包括下界和 生成式精度三难困境（折叠、坍缩或产生幻觉），以及解释迭代扩散/流式生成为何有效的精细化步数权衡。
提出了 验证引导规划 在长视程任务下的可靠性感知分析，明确了测试时计算何时有效、何时无效，以及为何自适应（几何放大）搜索在验证器噪声下至关重要。

Card 04 方法描述

方法描述

使用拓扑学、测度界限和概率论证等基本数学工具，构建了动作幻觉的连贯理论。
分析了三种结构性障碍：拓扑障碍（源于可行行为空间的非连通性）、精度障碍（源于接触任务中有效动作空间的低维性）和 视程障碍（源于长视程规划中的误差累积）。
通过严格的定理和引理，形式化了这些障碍如何对生成式策略施加不可避免的权衡。

Card 05 数据集与资源

数据集与资源

原文未明确列出所使用的数据集名称。
文中提及并作为分析对象的模型包括 π0.5、Gr00t N1、MolmoAct、Diffusion Policy、RDT-1b 等。
实验部分使用了合成数据（如双模式动作分布、接触流形）和真实机器人任务进行验证，但未报告具体的模型参数量或训练所用的计算资源（GPU/TPU）。

Card 06 评估与结果

评估与结果

评估结合了理论证明与实验验证。理论评估基于严格的数学推导，实验评估在合成环境和任务中进行。
主要评估指标为 幻觉概率，即生成动作或计划违反物理约束或任务目标的概率。
关键结果表明：幻觉概率随 模式数量 增加而近似线性增长；幻觉概率随 间隙平滑比 (W/L) 增大而升高；在精度任务中，随着 容忍度 δ 降低（精度要求提高），幻觉概率急剧上升。实验趋势与理论下界一致。