python - 通过python计算pdf文档中的图像

Question

有没有办法通过python计算pdf文档中的图像数量（JPEG、PNG、JPG）？

score 1 · Accepted Answer

您可能想查看 poppler-utils 包中的pdfimages。

运行以下命令时，将提取 pdf 中存在的图像 -

pdfimages /home/tata/Desktop/4555c-5055cBrochure.pdf image

从这本小册子中提取的一些图像是——

因此，您可以使用 python 的 subprocess 模块执行此命令，然后提取所有图像。

注意：这种方法有一些缺点。它生成 ppm 格式的图像，而不是 jpg。此外，可能会提取一些额外的图像，这些图像实际上可能不是 pdf 中的图像。

如果您想使用 pdfminer 执行此操作，请查看此博客文章 - 从 PDF 文件中提取文本和图像

Pdfminer 允许您遍历特定 pdf 页面的布局。下图显示了布局对象以及 pdfminer 生成的树结构 -

图片来源 - Pdfminer Docs

因此，提取 LTFigure 对象可以帮助您提取/计算 pdf 文档中的图像。

注意：请注意，这两种方法可能都不准确，它们的准确性在很大程度上取决于您正在处理的 pdf 文档的类型。

score 0 · Accepted Answer

我认为这不能直接完成。尽管我使用以下方法做了类似的事情

2 回答 2