返回列表 VLA / Vision-Language-Action 每日论文卡
CulinaryCut-VLAP: A Vision-Language-Action-Physics Framework for Food Cutting via a Force-Aware Material Point Method
提出 CulinaryCut-VLAP 框架,将视觉-语言-动作-物理(Vision-Language-Action-Physics)统一应用…

论文详情

CulinaryCut-VLAP: A Vision-Language-Action-Physics Framework for Food Cutting via a Force-Aware Material Point Method

2026-01-10 · 原文 · 翻译 · 2601.06451

提出 CulinaryCut-VLAP 框架,将视觉-语言-动作-物理(Vision-Language-Action-Physics)统一应用于食品切割任务 针对可变形物体切割中的拓扑变化、大变形、频繁接触和力感知等问题,采用 MLS-MPM(移动最小二乘物质点法) 构建物理真实切割模拟器 构建大规模多模态数据集,包含 325,000 条切割轨迹,涵盖 7 种食材、5 种切割风格和 13 种切割状态,支持定量语言指…

6 分钟读完 6 张阅读卡 Soongsil University (韩国成均馆大学): Hyunseo Koh, Youngja…
一眼看懂 封面预览

提出 CulinaryCut-VLAP 框架,将视觉-语言-动作-物理(Vision-Language-Action-Physics)统一应用…

  • 提出 CulinaryCut-VLAP 框架,将视觉-语言-动作-物理(Vision-Language-Action-Physics)统一应用…
  • 针对可变形物体切割中的拓扑变化、大变形、频繁接触和力感知等问题,采用 MLS-MPM(移动最小二乘物质点法) 构建物理真实切割模拟器
  • 构建大规模多模态数据集,包含 325,000 条切割轨迹,涵盖 7 种食材、5 种切割风格和 13 种切割状态,支持定量语言指令的精确 gro…
Card 01 研究单位

研究单位

  • Soongsil University (韩国成均馆大学): Hyunseo Koh, Youngjae Choi, Heewon Kim
  • Vanderbilt University (美国范德堡大学): Chang-Yong Song, Misa Viveriros, David Hyde
Card 02 论文概述

论文概述

  • 提出 CulinaryCut-VLAP 框架,将视觉-语言-动作-物理(Vision-Language-Action-Physics)统一应用于食品切割任务
  • 针对可变形物体切割中的拓扑变化、大变形、频繁接触和力感知等问题,采用 MLS-MPM(移动最小二乘物质点法) 构建物理真实切割模拟器
  • 构建大规模多模态数据集,包含 325,000 条切割轨迹,涵盖 7 种食材、5 种切割风格和 13 种切割状态,支持定量语言指令的精确 grounding
Card 03 核心贡献

核心贡献

  • 大规模食品切割数据集:提供多样化的食材类别和切割风格,包含多视角视觉观测、细粒度语言指令、力-力矩和工具姿态标签
  • 混合仿真框架:结合 ManiSkill 机器人仿真和 MPM 物理仿真,实现变形、接触力和拓扑变化的真实感建模
  • 可扩展数据生成管道:利用 LLM 进行指令合成和仿真驱动增强,实现高效大规模数据集构建
  • 综合基准测试:对 RDT-1B、Octo、OpenVLA 等多个 VLA 模型进行评估,揭示定量 grounding、连续动作控制和泛化能力的挑战
Card 04 方法描述

方法描述

  • 物理仿真:采用 MLS-MPM 作为计算核心,通过 APIC 技术保留旋转和剪切响应,减少数值耗散和能量漂移;使用连续损伤标量 D∈[0,1] 促进裂纹形成
  • 机器人仿真:基于 ManiSkill 平台,使用 7-DoF Franka Panda 机器人,配备刀具作为末端执行器
  • VLA 模型:采用序列级 VLA 公式,输入语言指令和多视角 RGB 图像及本体感知状态,生成完整动作序列
  • 操作安全模块:通过回归模型预测接触力,自适应限制刀具速度以确保力在安全范围内(F_max ≤ 100N)
  • 切割风格迁移模块(CSTM):使用 ViT 二分类器预测接触状态,将 VLA 输出的轨迹转换为风格特定轨迹
Card 05 数据集与资源

数据集与资源

  • 数据集:CulinaryCut 包含 325,000 条基于仿真的操作轨迹
  • 食材类别:橙子、草莓、哈密瓜、黄瓜、香蕉、苹果、桃子(7 种)
  • 切割风格:Normal Cut、Bias Cut、Guillotine Cut、Saw Cut(共 5 种)
  • 切割状态:Middle Cut、Split Cut(3/4/5 等分)、Ratio Cut(0.1-0.9,共 13 种)
  • 每任务轨迹数:500 条增强轨迹
  • 训练/测试划分:每任务 20 个测试样本,其余用于训练
Card 06 评估与结果

评估与结果

  • 评估环境:模拟桌面环境,随机化物体位置和姿态
  • 主要模型:RDT-1B、Octo、OpenVLA
  • 关键发现

- 一般任务:正常尺寸物体(如香蕉、黄瓜)表现稳定,但小物体(如浆果)成功率显著下降

- 多目标识别:从单目标到多目标场景,所有模型成功率明显下降(RDT: 68.57%→31.42%)

- 跨物体泛化:从训练物体到未训练物体的迁移表现有适度下降(RDT-1B: 59.28%→48.14%)

- 方向和比例泛化:模型在方向翻转和比例迁移任务中表现大幅下降(如 0.25→0.75 比例转移从 55% 降至 20%)

- 连续切割:在连续比例切割中,模型表现出系统性数值比例 grounding 失败

  • 物理真实性验证:MPM 模拟的力-速度关系与材料刚度一致(杨氏模量 E 从 0.1×10⁶ Pa 增加到 0.9×10⁶ Pa 时,峰值力从 69.96N 增至 77.34N)