3

我为一家出版商工作,并试图从我们完全布局的 PDF 中提取内容。我尝试了 pdftohtml、pdftotext、pdfminer 和其他基于 Python 的方法来获取内容,以及从原始 Acrobat 文件保存到 Word、HTML、XML 等。

我不仅需要文本,还需要文本格式。这是因为,例如,我需要文档中的所有蓝色文本。

当我从 Acrobat 保存到 HTML、Word 等时,生成的文件包含页面的屏幕截图,而不是布局的文本。当我使用不同的 Python 模块提取文本时,我得到了文本但丢失了文本格式。

我找到的唯一解决方案是手动将 PDF 复制并粘贴到 word 文档中,然后另存为 HTML。我希望能自动化这个。

为什么从 Acrobat 复制到 Word 可以达到我用其他方式做不到的效果?有没有人遇到过这个问题?

4

1 回答 1

0

也许你可以考虑另一种方法。该软件(https://pdfapi.codeplex.com/)可以通过MVS直接将pdf文件转换为html。如果您能够使用MVS,我认为我上面提到的软件对您将pdf文件中的文本转换为可以完美保持格式的html很有用。当然,这只是一个推荐,你可以试一试。

于 2013-08-06T09:25:23.877 回答