返回列表 VLA / Vision-Language-Action 每日论文卡
From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings
提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架,旨在从连续的…

论文详情

From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings

2025-11-26 · 原文 · 翻译 · 2511.21428

提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架,旨在从连续的工业视频流中提取动作原语,以解决 VLA 模型预训练的数据稀缺问题。 核心目标是利用被动观察的视频数据,自动发现和分割语义连贯的动作片段,并将其转化为适用于 VLA 预训练的结构化数据。 解决了工业环境中高质量标注数据获取成本高昂的瓶颈问题,实现了从非结构化视频到结构化动作词…

5 分钟读完 6 张阅读卡 ShanghaiTech University(上海科技大学):School of Informati…
一眼看懂 封面预览

提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架,旨在从连续的…

  • 提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架,旨在从连续的…
  • 核心目标是利用被动观察的视频数据,自动发现和分割语义连贯的动作片段,并将其转化为适用于 VLA 预训练的结构化数据。
  • 解决了工业环境中高质量标注数据获取成本高昂的瓶颈问题,实现了从非结构化视频到结构化动作词汇库的自动转化。
Card 01 研究单位

研究单位

  • ShanghaiTech University(上海科技大学):School of Information Science and Technology
  • Hangzhou Dianzi University(杭州电子科技大学):School of Automation
Card 02 论文概述

论文概述

  • 提出了一种名为 LAPS (Latent Action-based Primitive Segmentation) 的无监督框架,旨在从连续的工业视频流中提取动作原语,以解决 VLA 模型预训练的数据稀缺问题。
  • 核心目标是利用被动观察的视频数据,自动发现和分割语义连贯的动作片段,并将其转化为适用于 VLA 预训练的结构化数据。
  • 解决了工业环境中高质量标注数据获取成本高昂的瓶颈问题,实现了从非结构化视频到结构化动作词汇库的自动转化。
Card 03 核心贡献

核心贡献

  • 提出了 Latent Action Energy 这一新指标,用于在抽象的潜在动作空间中识别语义动作边界,区别于传统的像素级或光流变化检测。
  • 构建了首个端到端自动化的数据处理管道,能够将长时工业视频转换为结构化的动作原语库,直接服务于工业 VLA 模型的潜在预训练。
  • 在公开基准数据集和自有的真实工业电机装配数据集上进行了验证,证明了该方法在无监督动作分割任务上的有效性和可扩展性。
Card 04 方法描述

方法描述

  • 运动追踪:利用 CoTracker 等点追踪器从原始视频中提取密集的运动轨迹关键点。
  • 动作检测与分割:训练一个轻量级的 Motion Tokenizer 将关键点速度编码为潜在动作序列,并计算 Latent Action Energy(潜在动作能量),通过滞后控制器检测动作边界。
  • 语义动作聚类:使用冻结参数的 Transformer(无需训练)对分割出的动作片段进行时间嵌入,随后利用 Cosine k-means 算法将动作原语聚类为语义类别。
Card 05 数据集与资源

数据集与资源

  • GTEA:包含 28 个视频的厨房环境数据集。
  • Breakfast:包含 1712 个视频的烹饪活动数据集。
  • Industrial Motor Assembly Dataset:自采集的工业电机装配线数据集,包含约 10 小时的连续视频(顶视和外观察视角)。
  • 模型训练资源:Motion Tokenizer 仅需轻量级训练(约 25 分钟)。
Card 06 评估与结果

评估与结果

  • 评估基准:与 Optical FlowABDOTAS 等无监督时序动作检测基线方法进行对比。
  • 评估指标:使用边界 F1 分数(F1@2s, F1@5s)评估分割精度,使用 ICSS (Intra-Cluster Semantic Similarity) 评估聚类语义一致性。
  • 关键结果:在工业数据集上,LAPS 的分割性能显著优于基线方法(F1@2s 达到 81.27%81.93%,而基线最高仅约 40%);聚类结果显示出高语义一致性(ICSS 得分为 0.926)。