我一直在大声思考是否有一种简单的方法可以从 PDF 发票文件中提取或解析信息。像发票号码、日期、账单和金额一样,并获取这些信息以进行进一步的自动化处理。我不想使用市场上现成的发票文档解析器。我想从头开始构建,我可以进一步自定义和修改,它应该很容易与 Workato 集成。
在进一步阅读了 OpenAI 的 GPT-3 之后,我想为什么不尝试一下看看结果呢?
在本教程中,我想分享我使用 GPT-3 和 Workato 从 PDF 文件中提取发票编号、发票日期和总金额所做的工作。
从上面的示例 PDF 文档中,我想提取以下内容:
发票号码:124567AB
发票日期:04/05/2022
总金额:SGD 7000
什么是 GPT-3?
Generative Pre-trained Transformer Version 3 (GPT-3) 是来自OpenAI的通用 NLP 系统。GPT-3 使用由来自互联网、书籍和其他来源的文本组成的海量数据集进行训练,其中包含大约 570 亿个单词和 1750 亿个参数。任何人都可以使用 GPT-3 访问 OpenAI。要使用 API,您只需传入文本并返回文