Pedagogical Alignment for Vision-Language-Action Models: A Comprehensive Framework for Data, Architecture, and Evaluation in Education

一眼看懂封面预览

提出 Pedagogical VLA Framework，将视觉-语言-动作（VLA）模型应用于教育场景，特别是科学演示

Card 01 研究单位

研究单位

朝鲜大学 (Chosun University) - Unggi Lee, Jeongsu Moon, Youngchang Song, Jaechang Shim, JaeHwan Lee, Yunju Noh, Seungwon Choi, Ahhyun Kim, TaeHyeon Kim, Kyungtae Joo, Taeyeong Kim
首尔国立大学 (Seoul National University) - Jahyun Jeong, Sunyoung Shin
韩国课程与评价研究院 (Korea Institute for Curriculum and Evaluation) - Haeun Park
南洋理工大学 (Nanyang Technological University) - Gyeonggeon Lee

Card 02 论文概述

Card 03 核心贡献

Card 04 方法描述

- Mean Pooling 从动作专家隐藏状态提取上下文

- 投影层将专家维度映射到语言模型维度

- 文本解码器（12 层 Transformer）生成教学文本

- 语言模型头输出概率分布

训练目标：联合损失函数 $\mathcal{L}_{total} = \mathcal{L}_{action} + \lambda \mathcal{L}_{text}$，设置 $\lambda=0.1$
动作分块：每次推理预测 50 个动作，文本注释与动作块对齐

Card 05 数据集与资源

- 电磁感应（物理）：80 回合

- 焰色反应（化学）：80 回合

- 酵母发酵（生物）：122 回合

- 岩石分类（地球科学）：130 回合

- 琼脂板制备（实验支持）：160 回合

Card 06 评估与结果

- 任务执行：成功率、协议合规性、效率、安全性

- 文本质量：相关性、教学价值、安全沟通、流畅性（1-5 分）

- 可用性：有效性、效率、安全性、可持续性、愉悦感

- Pedagogical VLA 在文本质量上显著优于 Text-SmolVLA（相关性 3.7 vs 2.3，教学价值 3.5 vs 1.3）

- ACT 达到最高任务成功率（78%），但缺乏安全响应能力

- VLA 模型的人类检测停止率（60-78%）显著高于 ACT（20%）

- 消融实验表明 4 层解码器优先保障动作成功率，8 层在文本质量上最优