• AI对话
  • AI绘画
  • AI办公
  • AI语音
  • AI视频
  • 智能体
  • AI最新资讯
  • 协会动态
  • 图片广场
  • 角色广场
  • AI教育
  • AI商城

AI门户

logo
      首页
    • AI工具
    • AI资讯
    • AI社区
    • AI商业
    • APP
登录

高效的 PDF 文本提取与视觉语言模型

作者 · olmocr team来源 · olmocr team
浏览 · 141次2025-03-04
导读:olmOCR——从PDF到纯文本的高效利器,解锁文档处理新姿势
想象一下,把杂乱的PDF文件变成清晰易读的纯文本有多难?
Efficient PDF Text Extraction with Vision Language Models介绍了olmOCR,一款专为解决这一痛点打造的开源工具。它利用视觉语言模型,让PDF提取不再是噩梦,而是高效又省钱的日常操作。 olmOCR有几个亮点值得关注。首先,它性能强悍,训练于25万页多样化PDF,能轻松搞定学术论文、扫描旧书甚至手写信,提取文本又快又准。其次,成本低到惊人,处理百万页PDF仅需约190美元,比用GPT-4o便宜32倍。再次,它输出Markdown格式,表格、公式、手写内容都能按正确顺序排列,省去手动整理的麻烦。最后,作为开源项目,它提供完整模型、数据集和代码,兼容多种推理引擎,扩展性拉满。 这篇文章适合谁?普通用户可以用它快速转换合同、笔记或历史文档,省时省力;开发者能将其集成到文档管理系统或数据分析工具中,提升效率;投资者则可能看到它在教育、法律等领域的商业潜力。想知道PDF处理还能有多聪明?建议AI爱好者读全文,感受技术细节;急着试用的人可以直奔GitHub跑个Demo,看看它如何把“乱七八糟”的PDF变整齐。 总之,olmOCR不仅是技术突破,也是实用工具。无论你是想解放双手,还是挖掘数据价值,这篇都能给你启发——前提是你不怕动手试一试!

从预训练到推理,语言模型(LMs)都在处理纯文本数据。无论是在数万亿个标记 (tokens) 上进行训练,还是服务于数据密集型 AI 应用,文本质量都至关重要。嘈杂的文本会导致训练不稳定和模型性能下降,或者在完成用户请求时产生较差的输出。
然而,并非所有语言模型都使用易于解析的格式(如网页)的数据。事实上,对于许多领域来说,有价值的信息都存储在电子文档文件中,比如 PDF。这些格式带来了独特的挑战,因为它们的设计目的是在固定大小的页面上渲染内容,而不是保留逻辑文本结构。以 PDF 为例:这种格式将文本存储为二进制字符编码序列,以及它们在页面上的位置和格式。虽然这种格式很高效,但要恢复所有文本单元(如标题、段落、表格和公式)并按正确顺序排列却具有挑战性。
添加图片注释,不超过 140 字(可选)
为了帮助处理电子文档,我们推出了 olmOCR,这是一个高性能工具包,旨在将 PDF 和文档图像转换为干净、结构化的纯文本。olmOCR 的独特之处在于:
  • 性能:我们在从各种 PDF 中抽样的 250,000 页 数据上对 olmOCR 进行了微调。其中一些是数字原生 (born digital) 形式,而另一些是公共领域书籍的扫描副本。这确保了 olmOCR 可以准确地从各种文档中提取文本。
  • 成本效益:olmOCR 工具包处理一百万页 PDF 的成本约为 190 美元,大约是通过 GPT-4o API 进行批量处理所需成本的 1/32。
  • Markdown 输出:olmOCR 以 Markdown 格式输出文本,易于解析和处理。它可以处理方程式、表格和手写内容,即使对于最复杂的多列文档布局,也能以正确的阅读顺序输出。
  • 功能齐全:olmOCR 是一个完全优化的流程,可与 SGLang 和 vLLM 推理引擎一起使用。它可以有效地从一个 GPU 扩展到数百个 GPU,并包含用于处理常见解析失败和元数据错误的启发式方法。
  • 完全开源:olmOCR 基于 Qwen2-VL-7B-Instruct 构建。我们发布了该工具包的所有组件:模型权重、微调数据集、训练和推理代码。
了解 olmOCR 与其他领先的文档提取工具的比较,以及我们如何构建它的更多信息。如果您准备好试用,请访问我们的 GitHub 代码仓库,在您自己的项目中使用 olmOCR。
交互式工具比较
比较 olmOCR 与其他领先的文档提取工具在示例文档上的表现。使用下面的选项卡查看不同的输出,并查看处理质量的关键差异。
手写信件 (Handwritten Letter) 数学教科书 (Math Textbook) 历史文档 (Historical Document)
添加图片注释,不超过 140 字(可选)
亚伯拉罕·林肯 (Abraham Lincoln) 于 1864 年 1 月 15 日写的一封手写信件。
来源:https://www.loc.gov/item/mal4357100/
olmOCR Marker GOT OCR 2.0 MinerU
Executive Mansion, Washington City, January 15th, 1864 Major General Hitchcock, Commissioner of Exchanges, is authorized and directed to offer Brigadier General Trimble, now a prisoner of war in Fort McHenry, in exchange for Major White, who is held as a prisoner at Richmond. He is also directed to send forward the offer of exchange by Henry M. Warfield, Esq. of Baltimore, under a flag of truce, and give him a pass to City Point. Abraham Lincoln Executive Mansion, Washington City, January 15th, 1864 Major General Hitchcock, Commissioner of Exchanges, is authorized and directed to offer Brigadier General Trimble, now a prisoner of war in Fort McHenry, in exchange for Major White, who is held as a prisoner at Richmond. He is also directed to send forward the offer of exchange by Henry M. Warfield, Esq. of Baltimore, under a flag of truce, and give him a pass to City Point. Abraham Lincoln
构建 olmOCR
为了获得用于训练 olmOCR 的高质量数据,我们开发了一种名为“文档锚定”(document anchoring) 的技术,该技术利用 PDF 文件中现有的文本和元数据来提高提取文本的质量。
添加图片注释,不超过 140 字(可选)
图 1:文档锚定 (document-anchoring) 如何应用于典型页面的示例。提取相关的图像位置和文本块,将它们连接起来,并插入到模型提示中。当提示 VLM 提供文档的纯文本版本时,锚定文本将与页面的光栅化图像一起使用。
我们利用文档锚定技术,使用 GPT-4o 标注了 250,000 页数据。我们使用了从网络上抓取的公开可访问的 PDF 和由 Internet Archive 扫描的公共领域书籍的组合。该数据集是多样化的,其中 60% 是学术论文,12% 是小册子,11% 是法律文档,6% 是图表,5% 是幻灯片,4% 是其他文档类型。
为了训练模型本身,我们微调了 Qwen2-VL-7B-Instruct 模型检查点。我们使用 SGLang 仔细优化了用于大规模批处理的推理流程,使 olmOCR 能够以仅 190 美元的价格转换一百万页 PDF——大约是使用 GPT-4o API 成本的 1/32。我们的结果表明,与其他流行的 OCR 工具相比,不仅显著节省了成本,而且在人工评估中具有卓越的性能。
添加图片注释,不超过 140 字(可选)
图 2:olmOCR 与其他流行工具的 ELO 排名。
我们通过将 olmOCR 的输出与其他流行的 PDF 提取工具进行比较来评估 olmOCR:Marker、MinerU 和 GOT-OCR 2.0。我们收集了来自 11 位研究人员的成对比较。我们抽样了 2,017 个 PDF 并收集了 452 个有意义的比较,计算 ELO 评分以量化性能。olmOCR 的 ELO 评分超过 1800 分,显著优于所有竞争对手。olmOCR 优于 Marker 的比例为 61.3%,优于 GOT-OCR 的比例为 58.6%,优于 MinerU 的比例为 71.4%,这表明其在生成干净、结构良好的文本方面具有卓越的能力。
您可以在我们的技术报告中查看更多详细信息和其他评估。
访问
第一个 olmOCR 版本包括一个演示、模型权重、我们的微调数据集、一份简短的技术报告,以及最重要的,一个高效的推理流程。
访问我们的 GitHub 代码仓库 以安装 olmOCR 并浏览文档。然后,在具有 GPU 的机器上,只需运行:
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
我们希望很快发布额外的定量基准测试,以帮助社区开发更好的 PDF 提取模型并评估其性能,进一步推动 olmOCR 的改进。
官方介绍链接:https://olmocr.allenai.org/blog

热门文章

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

版权所有@2023 ​深圳市人工智能产业协会、深圳市宝安区低空无人系统产业协会       技术支持:​深圳市网新新思软件有限公司       粤ICP备19099358号-2       粤公网安备44030502010453号

