一眼看懂
封面预览
提出了 FormGym,首个用于评估端到端表单填写任务的 benchmark,专门针对文档样式表单(如 PDF 表格)的自动填充
- 提出了 FormGym,首个用于评估端到端表单填写任务的 benchmark,专门针对文档样式表单(如 PDF 表格)的自动填充
- 针对现有数据集仅关注解析、提取和网络表单交互的问题,构建了包含多种语言和领域的多样化表单数据集
- 发现当前视觉语言代理(VLAs)在表单填写任务上表现极差,主要原因是字段定位能力不足
Card 01
研究单位
研究单位
- Columbia University - Matthew Toles, Rattandeep Singh, Zhou Yu
- Georgia Institute of Technology - Isaac Song
- Arklex.ai - Isaac Song, Zhou Yu
Card 02
论文概述
论文概述
- 提出了 FormGym,首个用于评估端到端表单填写任务的 benchmark,专门针对文档样式表单(如 PDF 表格)的自动填充
- 针对现有数据集仅关注解析、提取和网络表单交互的问题,构建了包含多种语言和领域的多样化表单数据集
- 发现当前视觉语言代理(VLAs)在表单填写任务上表现极差,主要原因是字段定位能力不足
- 开发了 FieldFinder 工具来增强 VLA 的字段定位能力,显著提升填写准确率
Card 03
核心贡献
核心贡献
- FormGym Benchmark:首个评估端到端表单完成任务的标准化 benchmark,包含 25,466 个训练样本和 3,889 个测试样本
- FieldFinder:开放词汇表的字段定位模型,基于 Florence 2 Large 微调,使 VLA 能够通过字段名称而非坐标来定位填写位置
- 系统性评估了多种 VLA(Llava 7B、Molmo 7B、Aria 25B、Claude 4、GPT-5)和 Claude Computer Use GUI 代理的表现
- 发现 VLAs augmented with FieldFinder 在所有场景和模型上均优于基线方法
Card 04
方法描述
方法描述
- 数据集构建:整合 FUNSD、XFUND、Form-NLU 三个现有数据集,并通过删除值文本创建空表单;新增 Auto Loans 数据集(手动标注 886 个字段)
- FieldFinder 训练:基于 Florence 2 Large(0.77B 参数)微调,输入表单图像和字段名称文本,输出字段的边界框位置
- VLA Pipeline:使用图像编辑 API(PlaceText、DeleteText、SignOrInitial、Terminate)让 VLA 完成表单填写
- 评估指标:字段准确率(文本几何中心是否落在字段边界框内)
Card 05
数据集与资源
数据集与资源
- 数据集:FormGym 包含四个子数据集:FUNSD(39 测试表单)、XFUND(100 测试表单)、Form-NLU(66 测试表单)、Auto Loans(10 测试表单,886 字段)
- 模型规模:FieldFinder 基于 Florence 2 Large(0.77B 参数)微调
- 测试模型:Aria 25B、Claude 4、GPT-5、Llava 7B、Molmo 7B
- 训练资源:1x NVIDIA A100 GPU,训练 30 小时,6 epochs,batch size 8,learning rate 1e-6
Card 06
评估与结果
评估与结果
- 基线 VLA 表现:大多数模型准确率 ≤ 3%
- Claude 4 + FieldFinder:平均准确率 23.0%,比基线提升约 5 倍
- Claude Computer Use:平均准确率 21.1%,但成本是 Claude 4 + FF 的 100 倍($5.40 vs $0.043 每千字段)
- 最佳表现:Claude 4 使用真实坐标时达到 75.3% 准确率,证明推理能力足够,定位是主要瓶颈
- FieldFinder 准确率:Form-NLU 80.5%、FUNSD 57.4%、XFUND 24.9%、Auto Loans 6.9%
- 结论:FieldFinder 能显著帮助 VLA 克服空间推理限制,在数字生成的表单上表现最佳