8

我有一个带有图像和大量文本的 pdf 页面对象。

我想删除该图像并根据其内容删除一些文本对象。那就是我想获取所有文本对象的内容,然后如果它们满足条件则删除其中的一些。

我怎么能用PyPDF2做到这一点(文档真的很差)?或者是否有另一个允许这样做的库?

谢谢

4

1 回答 1

4

要使用 PyPDF2 从 PDF 文件中删除所有图像,您可以执行以下操作:

from PyPDF2 import PdfFileWriter, PdfFileReader

inputStream = open("src.pdf", "rb")
outputStream = open("dst.pdf", "wb")

src = PdfFileReader(inputStream)
output = PdfFileWriter()

[output.addPage(src.getPage(i)) for i in range(src.getNumPages())]
output.removeImages()

output.write(outputStream)

于 2019-04-25T08:14:42.143 回答