pdf - 任何不基于 OCR 的通用布局分析库或工具？

Question

我正在寻找可以应用于文本 PDF 的布局分析库或工具（最好是开源的），以识别主要文本内容与侧边栏、章节标题、部分标题（甚至可能是具有装饰/阴影和下划线的花哨的标题）等。我来了跨像 OCRopus 这样使用 OCR 和图像识别来识别布局的工具。是否有图书馆可以在没有 OCR 的情况下做同样的事情？可以从文本 PDF 中提取文本和图像，并将包含文本和图像位置的输入提供给工具；对此类文件使用 OCR 会相当迂回。

score 1 · Accepted Answer

我也不知道这样的独立（不依赖于 OCR 或图像处理）库，但您应该能够使用 OCRopus 或 OCRFeeder 的布局检测部分（https://live.gnome.org/OCRFeeder） . 你看过后者吗？显然，它旨在与几乎任何标准 OCR 引擎一起使用，这意味着可以通过创建您自己的“虚拟 OCR”来单独使用布局分析部分，该“虚拟 OCR”根据您的自定义逻辑（而不是任何真实的图像处理）提取数据并将其传递给到 OCRFeeder。

pdf - 任何不基于 OCR 的通用布局分析库或工具？

1 回答 1

Related

Reference