我现在使用 pdf2htmlEX 有一段时间了,在多次升级后,我决定寻找替代品。
当前工具
https://github.com/pdf2htmlEX/pdf2htmlEX
认为值得一提的是,我在 Node 上运行并将 pdf2htmlEX 作为子进程生成。
我们在使用此工具时遇到的一些问题是:
- 一些 pdf 字体丢失,而是
[]
出现,这迫使我使用该页面中的图像作为后备。 - 新的 pdf 文件无法转换并出现错误,
pdftotext
其中使用的工具poppler
是 pdf2htmlEX 的一部分 - 文本有时包括在复制粘贴用例期间复制的其他字符
是否在网上进行了一些研究,但无法确定哪个工具更适合给我提供与 pdf2htmlEX 相同(甚至更好的结果)的结果?
请指教