模型训练数据-MinerU一款Pdf转Markdown软件

模型训练数据-MinerU一款Pdf转Markdown软件-说明

简介:

MinerU是什么

MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。MinerU能将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式,支持从网页和电子书中提取内容,提高AI语料准备效率。MinerU具备高精度的PDF模型解析工具链,支持多种输入模型,自动识别乱码,保留文档结构,转换公式为LaTex,适用于学术、财务、法律等多个领域,支持CPU和GPU,兼容Windows/Linux/Mac平台,性能卓越。

https://opendatalab.com/OpenSourceTools/Extractor/PDF

MinerU的主要功能

  • PDF到Markdown转换:将包含多种内容类型的PDF文档转换为结构化的Markdown格式,便于进一步的编辑和分析。
  • 多模态内容处理:能识别和处理PDF中的图像、公式、表格和文本等多种内容。
  • 结构和格式保留:在转换过程中,保留原始文档的结构和格式,如标题、段落和列表。
  • 公式识别与转换:特别针对数学公式,能识别并转换成LaTeX格式,方便学术交流和技术文档使用。
  • 干扰元素去除:自动删除页眉、页脚、脚注和页码等非内容元素,净化文档信息。
  • 乱码识别与处理:自动识别并纠正PDF文档中的乱码,提高信息提取的准确性。
  • 高质量解析工具链:集成了先进的PDF解析工具,包括布局检测、公式检测和光学字符识别(OCR),确保提取结果的高准确度。

MinerU的技术原理

  • PDF文档分类预处理:在处理PDF文档之前,MinerU首先对文档进行分类,识别其类型(如文本型、图层型或扫描版PDF),并进行相应的预处理,例如检测乱码和识别是否为扫描文档。
  • 模型解析与内容提取
    • 布局检测:使用基于深度学习的模型,如LayoutLMv3,进行区域检测,识别文档中的图像、表格、标题和文本等不同区域。
    • 公式检测:利用基于YOLOv8的自研模型来识别文档中的数学公式,区分行内公式和行间公式。
    • 公式识别:通过自研的UniMERNet模型来识别和解析数学公式,将它们转换成LaTeX格式。
    • 光学字符识别(OCR):使用PaddleOCR等OCR技术来识别文档中的文本内容。
  • 管线处理:将模型解析得到的数据输入到处理管线中,进行后处理,包括:
    • 确定块级别的顺序。
    • 删除无用元素。
    • 根据版面进行内容排序和拼装,以保证正文的流畅性。
    • 进行坐标修复、高iou处理、图片和表格描述合并、公式替换、图标转储、Layout排序等操作。
  • 多种格式输出:处理后的文档信息可以转换为统一的中间态格式(middle-json),并根据需求输出为不同的格式,如Layout、Span、Markdown或Content list等。
  • PDF提取结果质检:使用人工标注的PDF自测评测集对整个流程进行检测,确保提取效果的优化。使用可视化质检工具进行人工质检与标注,反馈给模型训练,进一步提升模型能力。

MinerU的应用场景

  • 学术研究:研究人员可从学术论文和期刊中提取关键信息,包括文本、公式和图表,支持文献综述和数据分析。
  • 法律文档处理:法律专业人士可用MinerU从合同、法律意见书和其他法律文件中提取条款和证据,提高工作效率。
  • 技术文档管理:工程师和技术作者可从技术手册和产品文档中提取技术规格和操作步骤,便于知识管理和技术传播。
  • 知识管理和信息检索:企业和组织可以用MinerU从内部文档库中提取信息,构建知识库,提高信息检索的效率。
  • 数据挖掘和自然语言处理(NLP):数据科学家和NLP研究人员可用MinerU提取的数据来训练和优化机器学习模型。

部署使用:

官方说明地址:

体验使用cpu跑 正式使用可以用GPU来跑

https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

使用CPU快速体验

conda create -n MinerU python=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

从 ModelScope 下载模型(国内直接模搭上下吧)

使用python脚本 从ModelScope下载模型文件

pip install modelscope
wget https://gitee.com/myhloli/MinerU/raw/master/scripts/download_models.py -O download_models.py
python download_models.py

python脚本会自动下载模型文件并配置好配置文件中的模型目录

配置文件可以在用户目录中找到,文件名为magic-pdf.json

windows的用户目录为 “C:\Users\用户名”, linux用户目录为 “/home/用户名”, macOS用户目录为 “/Users/用户名”

命令行执行:

https://mineru.readthedocs.io/zh-cn/latest/user_guide/quick_start/command_line.html

示例:

magic-pdf -p 44_宏光MINI_EV_instruction.pdf -o output -m auto

使用过程中的一些异常:

1.个别文档会遇到这总叠词,需要自己手动处理一下

2.pdf的水印问题导致文档解析失败

一些水印情况会导致失败,只能是处理完水印再重新处理文档

### Mineru Linux 发行版特点 Mineru Linux 是一款专注于加密货币挖矿优化的操作系统。该发行版集成了多种预配置工具和服务,旨在简化设置过程并提高挖矿效率[^3]。 - **内核优化**:针对不同硬件平台进行了专门调整,特别是GPU性能调优。 - **自动化脚本支持**:提供一键部署环境的能力,减少手动配置时间。 - **集成监控组件**:内置温度监测、功耗统计等功能模块,帮助用户实时掌握设备状态。 ### 安装指南 对于希望在 Mineru Linux 中安装 NVIDIA GPU 驱动程序的用户来说,可以根据官方文档指示操作: ```bash sudo mineru-update # 更新软件源列表 sudo mineru-install nvidia-driver # 自动检测最佳驱动版本并完成安装 ``` 上述命令会自动识别适合当前系统的NVIDIA驱动版本,并执行完整的安装流程[^4]。 另外,在 Mineru Linux 下安装 NVIDIA Container Toolkit 可通过如下方式实现: ```bash sudo mineru-add-repo nvidia # 添加 NVIDIA 官方仓库 sudo mineru-refresh # 刷新缓存 sudo mineru-install nvidia-container-toolkit # 安装容器工具包 ``` 这将确保所有依赖项都被正确处理,并使 Docker 能够充分利用 NVIDIA 设备资源[^5]。 ### 使用教程 为了更好地利用 Mineru Linux 的特性,建议按照以下指导来启动挖矿作业: 1. 确认已成功安装所需驱动及 toolkit 后重启机器; 2. 编写或下载合适的挖矿程序(如 ethminer),放置于 `/opt/mining/` 目录下; 3. 创建服务文件以便后台运行挖矿进程; 创建一个名为 `ethminer.service` 文件位于 `/etc/systemd/system/` : ```ini [Unit] Description=Ethminer Service After=network.target [Service] ExecStart=/opt/mining/start.sh Restart=always User=miner [Install] WantedBy=default.target ``` 最后启用此服务以确保开机自启: ```bash sudo systemctl enable ethminer.service sudo systemctl start ethminer.service ``` 以上步骤能够保证 Ethminer 在 Mineru Linux 平台上稳定工作[^6]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@程序员小袁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值