ms-word - 如何自动将 PDF 转换为 HTML？

Question

我为一家出版商工作，并试图从我们完全布局的 PDF 中提取内容。我尝试了 pdftohtml、pdftotext、pdfminer 和其他基于 Python 的方法来获取内容，以及从原始 Acrobat 文件保存到 Word、HTML、XML 等。

我不仅需要文本，还需要文本格式。这是因为，例如，我需要文档中的所有蓝色文本。

当我从 Acrobat 保存到 HTML、Word 等时，生成的文件包含页面的屏幕截图，而不是布局的文本。当我使用不同的 Python 模块提取文本时，我得到了文本但丢失了文本格式。

我找到的唯一解决方案是手动将 PDF 复制并粘贴到 word 文档中，然后另存为 HTML。我希望能自动化这个。

为什么从 Acrobat 复制到 Word 可以达到我用其他方式做不到的效果？有没有人遇到过这个问题？

score 0 · Accepted Answer

也许你可以考虑另一种方法。该软件（https://pdfapi.codeplex.com/）可以通过MVS直接将pdf文件转换为html。如果您能够使用MVS，我认为我上面提到的软件对您将pdf文件中的文本转换为可以完美保持格式的html很有用。当然，这只是一个推荐，你可以试一试。

1 回答 1