python - 从 pdf 中删除一些图像和文本对象

Question

我有一个带有图像和大量文本的 pdf 页面对象。

我想删除该图像并根据其内容删除一些文本对象。那就是我想获取所有文本对象的内容，然后如果它们满足条件则删除其中的一些。

我怎么能用PyPDF2做到这一点（文档真的很差）？或者是否有另一个允许这样做的库？

谢谢

score 4 · Accepted Answer

要使用 PyPDF2 从 PDF 文件中删除所有图像，您可以执行以下操作：

from PyPDF2 import PdfFileWriter, PdfFileReader

inputStream = open("src.pdf", "rb")
outputStream = open("dst.pdf", "wb")

src = PdfFileReader(inputStream)
output = PdfFileWriter()

[output.addPage(src.getPage(i)) for i in range(src.getNumPages())]
output.removeImages()

output.write(outputStream)

python - 从 pdf 中删除一些图像和文本对象

1 回答 1

Related

Reference