我正在开发一个 Python Flask webapp,我正在尝试将一些用户上传的 pdf 转换为格式良好的 HTML,例如当您在iframe
.
到目前为止,我尝试了几件事:
pdfminer.six
图书馆,产生凌乱的HTML,- 试图在使用 pdf.js 渲染 PDF 时获取生成的 HTML,这显然隐藏在Shadow DOM中,无法访问其内部 HTML
- 最后我遇到了
pdf2htmlEX
(https://github.com/pdf2htmlEX/pdf2htmlEX),它产生了我想要的东西。
在本地,这个解决方案效果很好,但是在生产状态(Heroku)我无法正确安装它。该项目已被弃用,文档有限且糟糕。该问题与损坏的依赖关系有关。
那么,如何使用 Python 或任何其他工具有效地将 PDF 转换为 HTML 而不会丢失任何格式?
十分感谢。
如果有人愿意帮助我pdf2htmlEX
在 Heroku 上工作,请发表评论,我将在不同的帖子中发布更多详细信息