html - PDF转结构化格式

Question

我有大量的 PDF 文件，需要将其转换为可以解释的结构化格式（HTML/XML/等）

到目前为止，我已经尝试了很多转换为 HTML 的软件，但它们都没有分离图像的功能，它们只是像没有文本的页面的打印屏幕一样，然后将此图像用作 html 中的背景，使用css 来定位文本

我有一堆 PDF，因此不能手动处理每个图像。有谁知道任何解决方案（甚至是付费软件）？

score 3 · Accepted Answer

不久前我遇到了类似的问题，最终编写了自己的解决方案。它被称为PDFX，可以免费使用。它将 PDF 转换为结构化格式的 XML，并单独呈现 PDF 中的任何位图图像（不是矢量图形）。

示例输入/输出可以在这里找到。你可能想试一试。

1 回答 1