我为一家出版商工作,并试图从我们完全布局的 PDF 中提取内容。我尝试了 pdftohtml、pdftotext、pdfminer 和其他基于 Python 的方法来获取内容,以及从原始 Acrobat 文件保存到 Word、HTML、XML 等。
我不仅需要文本,还需要文本格式。这是因为,例如,我需要文档中的所有蓝色文本。
当我从 Acrobat 保存到 HTML、Word 等时,生成的文件包含页面的屏幕截图,而不是布局的文本。当我使用不同的 Python 模块提取文本时,我得到了文本但丢失了文本格式。
我找到的唯一解决方案是手动将 PDF 复制并粘贴到 word 文档中,然后另存为 HTML。我希望能自动化这个。
为什么从 Acrobat 复制到 Word 可以达到我用其他方式做不到的效果?有没有人遇到过这个问题?