FormGym: Doing Paperwork with Agents

论文详情

FormGym: Doing Paperwork with Agents

2025-06-17 · 原文 · 翻译 · 2506.14079

提出了 FormGym，首个用于评估端到端表单填写任务的 benchmark，专门针对文档样式表单（如 PDF 表格）的自动填充针对现有数据集仅关注解析、提取和网络表单交互的问题，构建了包含多种语言和领域的多样化表单数据集发现当前视觉语言代理（VLAs）在表单填写任务上表现极差，主要原因是字段定位能力不足开发了 FieldFinder 工具来增强 VLA 的字段定位能力，显著提升填写准确率

6 分钟读完 6 张阅读卡 Columbia University - Matthew Toles, Rattandeep Sin…

一眼看懂封面预览

提出了 FormGym，首个用于评估端到端表单填写任务的 benchmark，专门针对文档样式表单（如 PDF 表格）的自动填充

提出了 FormGym，首个用于评估端到端表单填写任务的 benchmark，专门针对文档样式表单（如 PDF 表格）的自动填充
针对现有数据集仅关注解析、提取和网络表单交互的问题，构建了包含多种语言和领域的多样化表单数据集
发现当前视觉语言代理（VLAs）在表单填写任务上表现极差，主要原因是字段定位能力不足

Card 01 研究单位

研究单位

Columbia University - Matthew Toles, Rattandeep Singh, Zhou Yu
Georgia Institute of Technology - Isaac Song
Arklex.ai - Isaac Song, Zhou Yu

Card 02 论文概述

论文概述

提出了 FormGym，首个用于评估端到端表单填写任务的 benchmark，专门针对文档样式表单（如 PDF 表格）的自动填充
针对现有数据集仅关注解析、提取和网络表单交互的问题，构建了包含多种语言和领域的多样化表单数据集
发现当前视觉语言代理（VLAs）在表单填写任务上表现极差，主要原因是字段定位能力不足
开发了 FieldFinder 工具来增强 VLA 的字段定位能力，显著提升填写准确率

Card 03 核心贡献

核心贡献

FormGym Benchmark：首个评估端到端表单完成任务的标准化 benchmark，包含 25,466 个训练样本和 3,889 个测试样本
FieldFinder：开放词汇表的字段定位模型，基于 Florence 2 Large 微调，使 VLA 能够通过字段名称而非坐标来定位填写位置
系统性评估了多种 VLA（Llava 7B、Molmo 7B、Aria 25B、Claude 4、GPT-5）和 Claude Computer Use GUI 代理的表现
发现 VLAs augmented with FieldFinder 在所有场景和模型上均优于基线方法

Card 04 方法描述

方法描述

数据集构建：整合 FUNSD、XFUND、Form-NLU 三个现有数据集，并通过删除值文本创建空表单；新增 Auto Loans 数据集（手动标注 886 个字段）
FieldFinder 训练：基于 Florence 2 Large（0.77B 参数）微调，输入表单图像和字段名称文本，输出字段的边界框位置
VLA Pipeline：使用图像编辑 API（PlaceText、DeleteText、SignOrInitial、Terminate）让 VLA 完成表单填写
评估指标：字段准确率（文本几何中心是否落在字段边界框内）

Card 05 数据集与资源

数据集与资源

数据集：FormGym 包含四个子数据集：FUNSD（39 测试表单）、XFUND（100 测试表单）、Form-NLU（66 测试表单）、Auto Loans（10 测试表单，886 字段）
模型规模：FieldFinder 基于 Florence 2 Large（0.77B 参数）微调
测试模型：Aria 25B、Claude 4、GPT-5、Llava 7B、Molmo 7B
训练资源：1x NVIDIA A100 GPU，训练 30 小时，6 epochs，batch size 8，learning rate 1e-6

Card 06 评估与结果

评估与结果

基线 VLA 表现：大多数模型准确率 ≤ 3%
Claude 4 + FieldFinder：平均准确率 23.0%，比基线提升约 5 倍
Claude Computer Use：平均准确率 21.1%，但成本是 Claude 4 + FF 的 100 倍（$5.40 vs $0.043 每千字段）
最佳表现：Claude 4 使用真实坐标时达到 75.3% 准确率，证明推理能力足够，定位是主要瓶颈
FieldFinder 准确率：Form-NLU 80.5%、FUNSD 57.4%、XFUND 24.9%、Auto Loans 6.9%
结论：FieldFinder 能显著帮助 VLA 克服空间推理限制，在数字生成的表单上表现最佳