0

我想解析一些包含文本并且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以进行进一步处理,并将图像保存为 jpeg/png 或任何其他图像格式。最好的模块应该是什么?

4

1 回答 1

2

pdfminer 将获取您的文本。pdfrw(免责声明:我是 pdfrw 的作者)有一些示例可以找到图像并将它们转储到单独的页面,还有将 PDF 拆分为单独页面的示例,因此您可以轻松地将所有图像提取到单独的 PDF 中。如果您在无头模式下运行inkscape(例如从子进程模块),它可以读取PDF并输出不同的格式。

于 2015-09-20T20:38:43.267 回答