CulinaryCut-VLAP: A Vision-Language-Action-Physics Framework for Food Cutting via a Force-Aware Material Point Method

一眼看懂封面预览

提出 CulinaryCut-VLAP 框架，将视觉-语言-动作-物理（Vision-Language-Action-Physics）统一应用…

Card 01 研究单位

研究单位

Soongsil University (韩国成均馆大学): Hyunseo Koh, Youngjae Choi, Heewon Kim
Vanderbilt University (美国范德堡大学): Chang-Yong Song, Misa Viveriros, David Hyde

Card 02 论文概述

提出 CulinaryCut-VLAP 框架，将视觉-语言-动作-物理（Vision-Language-Action-Physics）统一应用于食品切割任务
针对可变形物体切割中的拓扑变化、大变形、频繁接触和力感知等问题，采用 MLS-MPM（移动最小二乘物质点法） 构建物理真实切割模拟器
构建大规模多模态数据集，包含 325,000 条切割轨迹，涵盖 7 种食材、5 种切割风格和 13 种切割状态，支持定量语言指令的精确 grounding

Card 03 核心贡献

Card 04 方法描述

物理仿真：采用 MLS-MPM 作为计算核心，通过 APIC 技术保留旋转和剪切响应，减少数值耗散和能量漂移；使用连续损伤标量 D∈[0,1] 促进裂纹形成
机器人仿真：基于 ManiSkill 平台，使用 7-DoF Franka Panda 机器人，配备刀具作为末端执行器
VLA 模型：采用序列级 VLA 公式，输入语言指令和多视角 RGB 图像及本体感知状态，生成完整动作序列
操作安全模块：通过回归模型预测接触力，自适应限制刀具速度以确保力在安全范围内（F_max ≤ 100N）
切割风格迁移模块（CSTM）：使用 ViT 二分类器预测接触状态，将 VLA 输出的轨迹转换为风格特定轨迹

Card 05 数据集与资源

Card 06 评估与结果

- 一般任务：正常尺寸物体（如香蕉、黄瓜）表现稳定，但小物体（如浆果）成功率显著下降

- 多目标识别：从单目标到多目标场景，所有模型成功率明显下降（RDT: 68.57%→31.42%）

- 跨物体泛化：从训练物体到未训练物体的迁移表现有适度下降（RDT-1B: 59.28%→48.14%）

- 方向和比例泛化：模型在方向翻转和比例迁移任务中表现大幅下降（如 0.25→0.75 比例转移从 55% 降至 20%）

- 连续切割：在连续比例切割中，模型表现出系统性数值比例 grounding 失败

物理真实性验证：MPM 模拟的力-速度关系与材料刚度一致（杨氏模量 E 从 0.1×10⁶ Pa 增加到 0.9×10⁶ Pa 时，峰值力从 69.96N 增至 77.34N）