提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架，旨在从连续的…

论文详情

From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings

2025-11-26 · 原文 · 翻译 · 2511.21428

提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架，旨在从连续的工业视频流中提取动作原语，以解决 VLA 模型预训练的数据稀缺问题。核心目标是利用被动观察的视频数据，自动发现和分割语义连贯的动作片段，并将其转化为适用于 VLA 预训练的结构化数据。解决了工业环境中高质量标注数据获取成本高昂的瓶颈问题，实现了从非结构化视频到结构化动作词…

5 分钟读完 6 张阅读卡 ShanghaiTech University（上海科技大学）：School of Informati…

一眼看懂封面预览

提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架，旨在从连续的…

提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架，旨在从连续的…
核心目标是利用被动观察的视频数据，自动发现和分割语义连贯的动作片段，并将其转化为适用于 VLA 预训练的结构化数据。
解决了工业环境中高质量标注数据获取成本高昂的瓶颈问题，实现了从非结构化视频到结构化动作词汇库的自动转化。

Card 01 研究单位

研究单位

ShanghaiTech University（上海科技大学）：School of Information Science and Technology
Hangzhou Dianzi University（杭州电子科技大学）：School of Automation

Card 02 论文概述

论文概述

提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架，旨在从连续的工业视频流中提取动作原语，以解决 VLA 模型预训练的数据稀缺问题。
核心目标是利用被动观察的视频数据，自动发现和分割语义连贯的动作片段，并将其转化为适用于 VLA 预训练的结构化数据。
解决了工业环境中高质量标注数据获取成本高昂的瓶颈问题，实现了从非结构化视频到结构化动作词汇库的自动转化。

Card 03 核心贡献

核心贡献

提出了 Latent Action Energy 这一新指标，用于在抽象的潜在动作空间中识别语义动作边界，区别于传统的像素级或光流变化检测。
构建了首个端到端自动化的数据处理管道，能够将长时工业视频转换为结构化的动作原语库，直接服务于工业 VLA 模型的潜在预训练。
在公开基准数据集和自有的真实工业电机装配数据集上进行了验证，证明了该方法在无监督动作分割任务上的有效性和可扩展性。

Card 04 方法描述

方法描述

运动追踪：利用 CoTracker 等点追踪器从原始视频中提取密集的运动轨迹关键点。
动作检测与分割：训练一个轻量级的 Motion Tokenizer 将关键点速度编码为潜在动作序列，并计算 Latent Action Energy（潜在动作能量），通过滞后控制器检测动作边界。
语义动作聚类：使用冻结参数的 Transformer（无需训练）对分割出的动作片段进行时间嵌入，随后利用 Cosine k-means 算法将动作原语聚类为语义类别。

Card 05 数据集与资源

数据集与资源

GTEA：包含 28 个视频的厨房环境数据集。
Breakfast：包含 1712 个视频的烹饪活动数据集。
Industrial Motor Assembly Dataset：自采集的工业电机装配线数据集，包含约 10 小时的连续视频（顶视和外观察视角）。
模型训练资源：Motion Tokenizer 仅需轻量级训练（约 25 分钟）。

Card 06 评估与结果

评估与结果

评估基准：与 Optical Flow、ABD 和 OTAS 等无监督时序动作检测基线方法进行对比。
评估指标：使用边界 F1 分数（F1@2s, F1@5s）评估分割精度，使用 ICSS (Intra-Cluster Semantic Similarity) 评估聚类语义一致性。
关键结果：在工业数据集上，LAPS 的分割性能显著优于基线方法（F1@2s 达到 81.27% 和 81.93%，而基线最高仅约 40%）；聚类结果显示出高语义一致性（ICSS 得分为 0.926）。