返回列表 VLA / Vision-Language-Action 每日论文卡

FormGym: Doing Paperwork with Agents

论文详情

FormGym: Doing Paperwork with Agents

2025-06-17 · 原文 · 翻译 · 2506.14079

提出了 FormGym,首个用于评估端到端表单填写任务的 benchmark,专门针对文档样式表单(如 PDF 表格)的自动填充 针对现有数据集仅关注解析、提取和网络表单交互的问题,构建了包含多种语言和领域的多样化表单数据集 发现当前视觉语言代理(VLAs)在表单填写任务上表现极差,主要原因是字段定位能力不足 开发了 FieldFinder 工具来增强 VLA 的字段定位能力,显著提升填写准确率

6 分钟读完 6 张阅读卡 Columbia University - Matthew Toles, Rattandeep Sin…
一眼看懂 封面预览

提出了 FormGym,首个用于评估端到端表单填写任务的 benchmark,专门针对文档样式表单(如 PDF 表格)的自动填充

  • 提出了 FormGym,首个用于评估端到端表单填写任务的 benchmark,专门针对文档样式表单(如 PDF 表格)的自动填充
  • 针对现有数据集仅关注解析、提取和网络表单交互的问题,构建了包含多种语言和领域的多样化表单数据集
  • 发现当前视觉语言代理(VLAs)在表单填写任务上表现极差,主要原因是字段定位能力不足
Card 01 研究单位

研究单位

  • Columbia University - Matthew Toles, Rattandeep Singh, Zhou Yu
  • Georgia Institute of Technology - Isaac Song
  • Arklex.ai - Isaac Song, Zhou Yu
Card 02 论文概述

论文概述

  • 提出了 FormGym,首个用于评估端到端表单填写任务的 benchmark,专门针对文档样式表单(如 PDF 表格)的自动填充
  • 针对现有数据集仅关注解析、提取和网络表单交互的问题,构建了包含多种语言和领域的多样化表单数据集
  • 发现当前视觉语言代理(VLAs)在表单填写任务上表现极差,主要原因是字段定位能力不足
  • 开发了 FieldFinder 工具来增强 VLA 的字段定位能力,显著提升填写准确率
Card 03 核心贡献

核心贡献

  • FormGym Benchmark:首个评估端到端表单完成任务的标准化 benchmark,包含 25,466 个训练样本和 3,889 个测试样本
  • FieldFinder:开放词汇表的字段定位模型,基于 Florence 2 Large 微调,使 VLA 能够通过字段名称而非坐标来定位填写位置
  • 系统性评估了多种 VLA(Llava 7B、Molmo 7B、Aria 25B、Claude 4、GPT-5)和 Claude Computer Use GUI 代理的表现
  • 发现 VLAs augmented with FieldFinder 在所有场景和模型上均优于基线方法
Card 04 方法描述

方法描述

  • 数据集构建:整合 FUNSD、XFUND、Form-NLU 三个现有数据集,并通过删除值文本创建空表单;新增 Auto Loans 数据集(手动标注 886 个字段)
  • FieldFinder 训练:基于 Florence 2 Large(0.77B 参数)微调,输入表单图像和字段名称文本,输出字段的边界框位置
  • VLA Pipeline:使用图像编辑 API(PlaceText、DeleteText、SignOrInitial、Terminate)让 VLA 完成表单填写
  • 评估指标:字段准确率(文本几何中心是否落在字段边界框内)
Card 05 数据集与资源

数据集与资源

  • 数据集:FormGym 包含四个子数据集:FUNSD(39 测试表单)、XFUND(100 测试表单)、Form-NLU(66 测试表单)、Auto Loans(10 测试表单,886 字段)
  • 模型规模:FieldFinder 基于 Florence 2 Large(0.77B 参数)微调
  • 测试模型:Aria 25B、Claude 4、GPT-5、Llava 7B、Molmo 7B
  • 训练资源:1x NVIDIA A100 GPU,训练 30 小时,6 epochs,batch size 8,learning rate 1e-6
Card 06 评估与结果

评估与结果

  • 基线 VLA 表现:大多数模型准确率 ≤ 3%
  • Claude 4 + FieldFinder:平均准确率 23.0%,比基线提升约 5 倍
  • Claude Computer Use:平均准确率 21.1%,但成本是 Claude 4 + FF 的 100 倍($5.40 vs $0.043 每千字段)
  • 最佳表现:Claude 4 使用真实坐标时达到 75.3% 准确率,证明推理能力足够,定位是主要瓶颈
  • FieldFinder 准确率:Form-NLU 80.5%、FUNSD 57.4%、XFUND 24.9%、Auto Loans 6.9%
  • 结论:FieldFinder 能显著帮助 VLA 克服空间推理限制,在数字生成的表单上表现最佳