Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal LLM

本文是LLM系列文章,针对《Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM)》的翻译。

使用多模态大型语言模型 (LLM) 从平面内旋转文档中提取结构化数据的稳健性

摘要

多模态大型语言模型 (LLM) 在各种自然语言处理任务(包括从文档中提取数据)中表现出卓越的性能。但是,这些模型的准确性可能会受到文档平面内旋转(也称为倾斜)的显著影响,这是扫描文档的实际场景中的常见问题。本研究调查了文档偏斜对三种最先进的多模态 LLM 的数据提取准确性的影响:Anthropic Claude V3 Sonnet、GPT-4-Turbo 和 Llava:v1.6。我们专注于从合成生成的具有不同偏度的样本文档中提取特定实体。结果表明,文档偏斜对所有测试的 LLM 的数据提取准确性产生不利影响,影响的严重程度因模型而异。我们确定了每个模型的安全面内旋转角度 (SIPRA),并研究了偏斜对模型幻觉的影响。此外,我们探讨了现有的偏差检测和校正机制,并讨论了它们的潜在局限性。我们提出了替代方法,包括开发新的多模态架构,这些架构本质上对记录倾斜更健壮,并在模型的预训练阶段采用倾斜技术。此外,我们强调需要对更广泛的文档质量和条件进行更全面的测试,以充分了解在实际场景中使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值