提出 CLaD 框架，通过跨模态潜在动态模型学习本体感知和语义状态在动作下的共同演变

论文详情

CLaD: Planning with Grounded Foresight via Cross-Modal Latent Dynamics

2026-03-31 · 原文 · 翻译 · 2603.29409

提出 CLaD 框架，通过跨模态潜在动态模型学习本体感知和语义状态在动作下的共同演变解决现有规划方法未明确对齐跨模态过渡导致的轨迹物理或逻辑不一致问题预测接地潜在远见并用于条件化扩散策略，实现高效机器人操作规划

4 分钟读完 6 张阅读卡 KAIST（韩国科学技术院）

一眼看懂封面预览

提出 CLaD 框架，通过跨模态潜在动态模型学习本体感知和语义状态在动作下的共同演变

提出 CLaD 框架，通过跨模态潜在动态模型学习本体感知和语义状态在动作下的共同演变
解决现有规划方法未明确对齐跨模态过渡导致的轨迹物理或逻辑不一致问题
预测接地潜在远见并用于条件化扩散策略，实现高效机器人操作规划

Card 01 研究单位

研究单位

KAIST（韩国科学技术院）

Card 02 论文概述

论文概述

提出 CLaD 框架，通过跨模态潜在动态模型学习本体感知和语义状态在动作下的共同演变
解决现有规划方法未明确对齐跨模态过渡导致的轨迹物理或逻辑不一致问题
预测接地潜在远见并用于条件化扩散策略，实现高效机器人操作规划

Card 03 核心贡献

核心贡献

提出跨模态潜在动态模型，通过不对称交叉注意力学习运动与语义过渡的关联
引入接地潜在远见的两阶段训练框架，使用EMA目标编码器和辅助重建损失防止表示坍塌
实现参数高效规划，仅用0.66B参数达到与7B VLA模型竞争的性能
在LIBERO-LONG基准达到94.7%成功率，超越同规模方法
验证跨模态动态建模对解决感知歧义的关键作用

Card 04 方法描述

方法描述

采用两阶段框架：第一阶段学习跨模态动态和潜在远见，第二阶段训练扩散策略
使用不对称交叉注意力，让本体感知过渡作为查询查询语义过渡
通过过渡嵌入压缩状态和动作序列为紧凑表示
使用自监督目标：EMA目标编码器的潜在预测损失+辅助重建损失
通过FiLM调制将潜在远见与当前观察结合，条件化扩散策略生成动作序列
关键创新：过渡级跨模态建模而非静态状态对齐

Card 05 数据集与资源

数据集与资源

使用LIBERO-LONG基准，包含10个需要2-3子任务的长期操作任务
总模型参数：0.66B（VLM: 0.1B，CLaD: 0.33B，策略: 0.23B）
使用DecisionNCE作为冻结的预训练VLM
训练硬件：NVIDIA RTX 4090 GPU
第一阶段训练：25K步，批大小128，约2小时
第二阶段训练：200K步，批大小128，约20小时

Card 06 评估与结果

评估与结果

评估环境：LIBERO-LONG基准的10个长期操作任务
主要指标：平均成功率（Avg. SR）
关键结果：达到94.7%平均成功率，超越OpenVLA（7B, 93.8%）和π₀.₅（3.3B, 93.2%）
计算效率：推理频率25Hz，内存占用4GB，规划延迟0.012秒
消融实验验证：跨模态远见优于单模态（语义单独91.5%，本体感知单独50.4%），重建损失防止8.6%性能下降，本体查询语义的注意力配置最优