PaddleOCR 3.0发布：OCR精度跃升13%，支持多语种、手写体与高精度文档解析

飞桨PaddlePaddle

已于 2025-05-21 18:50:32 修改

阅读量996

点赞数 11

分类专栏：最新上线技术干货文章标签： ocr 人工智能飞桨 paddlepaddle

于 2025-05-21 17:42:11 首次发布

本文链接：https://blog.csdn.net/PaddlePaddle/article/details/148103756

版权

技术干货同时被 2 个专栏收录

42 篇文章

订阅专栏

全场景文字识别模型PP-OCRv5：

单模型支持5种文字类型和复杂手写体识别

整体识别精度相比上一代提升13个百分点

PP-OCRv5是面向大模型时代多模态需求、聚焦多语言多场景识别的轻量级端到端文字识别方案。该方案实现以单一模型高效、精准地支持简体中文、繁体中文、中文拼音、英文、日文五种文字类型，以及手写、竖版、拼音、生僻字等复杂文本场景的识别。

PP-OCRv5的主要优势有：

单模型支持5种文字类型（简体中文、繁体中文、中文拼音、英文和日文**）。PP-OCRv5是业界首个单模型支持5种文字类型的超轻量级(<100M)开源模型，在此之前，通常是单一模型解决一种文字类型的识别。若一个文档中有3种文字类型，则需要调用三个模型去实现文字识别，导致识别效率不高。PP-OCRv5通过统一模型架构实现5种文字类型的无缝识别，无需针对不同文字类型部署独立模型，简化了部署流程，也提升了识别的总体精度和速度。
支持复杂手写体识别。手写体混合印刷体的识别是多个应用场景的刚需，例如：教育行业的试卷作业批改场景、医疗行业的病历数字化场景、法律行业的合同笔录数字化场景等。PP-OCRv5支持中英日手写体识别，对复杂连笔、非规范字迹识别精度有显著提升。
整体识别达到SOTA精度。在业务多场景高难度文字识别评估集上，PP-OCRv5的识别精度达到当前最优，比上一版本PP-OCRv4，识别精度提升13个百分点！

PP-OCRv5 vs PP-OCRv4 模型精度对比

欢迎开发者到飞桨星河社区体验PP-OCRv5的能力：

https://aistudio.baidu.com/community/app/91660/webUI

通用文档解析方案PP-StructureV3：

支持多场景、多版式PDF高精度解析

在公开评测集中领先众多开源和闭源方案

文档解析是一种从文档图像中提取结构化信息的技术，主要用于将复杂的文档版面转换为结构化数据，这项技术在AI大模型文档处理领域有广泛的应用。通用文档解析方案PP-StructureV3在上一代的基础上，强化了版面区域检测、表格识别、公式识别的能力，增加了图表理解和多栏阅读顺序的恢复能力，并可以将结果转换 Markdown和JSON格式。

PP-StructureV3的主要优势有：

精度高：支持多场景、多版式PDF高精度解析，在OmniDocBench基准测试中领先众多开源和闭源方案。

注：以上精度信息除PP-StructureV3和MinerU-1.3.11为自测精度外，均来自OmniDocBench

多项专精能力: 除了在OmniDocBench上的精度指标更高之外，PP-StructureV3还有多项专精能力，如：印章识别、图表转表格、嵌套公式/图片的表格识别、竖排文本解析及复杂表格结构分析等——这些能力是很多重要场景AI应用落地的刚需。

欢迎开发者到飞桨星河社区体验PP-StructureV3的能力：

https://aistudio.baidu.com/community/app/518494/webUI

智能文档理解方案PP-ChatOCRv4：

原生支持文心大模型4.5 Turbo

关键信息抽取精度相比上一代提升15个百分点

PP-ChatOCR系列是飞桨特色智能文档理解类解决方案，融合大模型和小模型的优势能力，达到通用场景下的文档图像关键信息抽取效果，支持身份证、银行卡、企业合同等多种场景的关键信息提取。PP-ChatOCRv4在上一代基础上，结合文心大模型4.5 Turbo强大的理解优势，并支持离线使用多模态文档理解模型PP-DocBee2，实现了更高效的文本图像信息抽取，一站式解决版面分析、生僻字、多页pdf、表格、印章识别等常见的复杂文档信息抽取难点问题。

PP-ChatOCRv4的主要优势有：

关键信息抽取精度相比上一代提升15个百分点，效果业界领先。在内部业务中文场景评估集（覆盖印刷文字、表格、印章、图表等）中的准确率如下表所示：

原生支持文心大模型4.5 Turbo，还兼容PaddleNLP、Ollama等工具部署离线大模型。
集成PP-DocBee2，支持印刷文字、手写体文字、印章信息、表格、图表等常见的复杂文档信息抽取和理解的能力。

欢迎开发者到飞桨星河社区体验PP-ChatOCRv4的能力：

https://aistudio.baidu.com/community/app/518493/webUI

结语

PaddleOCR 3.0全面适配飞桨框架3.0正式版，并发布三大特色能力，包括：全场景文字识别模型PP-OCRv5，通用文档解析方案PP-StructureV3和原生支持文心大模型4.5 Turbo的智能文档理解方案PP-ChatOCRv4；新增对昆仑芯、昇腾等国产硬件的支持；提供好学易用的工具，赋能开发者轻松应用文字识别和文档解析技术，快速落地AI应用。非常欢迎大家立即体验&使用，并给我们反馈！

开源地址：

https://github.com/PaddlePaddle/PaddleOCR

技术交流：加入PaddleOCR官方技术交流群，探索更多技术课程，与官方技术团队交流合作，报名链接：https://www.wjx.top/vm/O82NmLp.aspx?udsid=968208

在这里插入图片描述