MinerU 是一个强大的开源工具,旨在将 PDF 文档转换为机器可读的格式(如 Markdown 和 JSON),使用户能够轻松提取和处理文档内容。该项目诞生于 InternLM 的预训练过程中,专注于解决科学文献中的符号转换问题,致力于为大模型时代的技术发展贡献力量。无论您是 AI 用户还是从业者,MinerU 都能为您提供高效、灵活的 PDF 处理解决方案。
本文将为您详细介绍 MinerU 的核心功能、使用方法以及未来发展方向,帮助您快速上手并探索其潜力。
MinerU 提供了丰富的功能,满足从简单文档解析到复杂科学文献处理的需求:
语义连贯性:自动移除页眉、页脚、脚注和页码,确保提取的文本内容连贯。
灵活的文本输出:支持单栏、多栏和复杂布局的文档,按人类可读顺序输出文本。
结构保留:保留原始文档结构,包括标题、段落、列表等。
多媒体提取:提取图像、图像描述、表格、表格标题和脚注。
公式与表格转换:
自动识别文档中的公式并转换为 LaTeX 格式。
自动识别表格并转换为 HTML 格式。
OCR 支持:
自动检测扫描 PDF 和乱码 PDF,启用 OCR 功能。
支持 84 种语言的检测和识别。
多种输出格式:提供多模态 Markdown、NLP Markdown、按阅读顺序排序的 JSON 等格式。
可视化工具:支持布局可视化和跨度可视化,便于用户验证输出质量。
跨平台兼容性:支持 Windows、Linux 和 Mac 平台,可在纯 CPU 环境下运行,也支持 GPU(CUDA)、NPU(CANN)和 MPS 加速。
这些特性使 MinerU 成为处理学术论文、技术文档和其他复杂 PDF 的理想工具。
MinerU 提供三种使用方式,方便不同需求的读者快速体验:
通过以下平台直接试用 MinerU:
适合希望快速体验功能的 AI 用户。
适用于 Windows、Linux 和 Mac 用户:
安装 magic-pdf:
conda create -n MinerU python=3.10
conda activate MinerU
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com
下载模型权重文件:
参考模型下载指南。
配置:
安装后,magic-pdf.json
文件会自动生成在用户目录下(Windows: C:\Users\username
;Linux: /home/username
;Mac: /Users/username
)。
可修改配置文件启用/禁用功能,例如:
{
"table-config": {
"enable": true
},
"formula-config": {
"enable": true
}
}
GPU(CUDA):支持 Ubuntu 22.04 LTS 和 Windows 10/11,需 GPU VRAM ≥ 8GB。参考指南。
NPU(CANN):支持华为 Ascend NPU,详情见Ascend NPU 加速教程。
MPS(Apple Silicon):在 macOS 上启用 MPS 加速,修改 magic-pdf.json
:
{
"device-mode": "mps"
}
此外,MinerU 还提供 Docker 部署(需 GPU VRAM ≥ 8GB),可快速构建环境:
wget https://github.com/opendatalab/MinerU/raw/master/docker/global/Dockerfile -O Dockerfile
docker build -t mineru:latest .
docker run --rm -it --gpus=all mineru:latest
MinerU 支持两种主要使用方式,灵活适应不同场景:
通过命令行运行 MinerU,适合批量处理或脚本集成。
输出文件说明见文档。
通过 Python API 集成 MinerU,适合开发者嵌入到自定义工作流中。