我有一个带有图像和大量文本的 pdf 页面对象。
我想删除该图像并根据其内容删除一些文本对象。那就是我想获取所有文本对象的内容,然后如果它们满足条件则删除其中的一些。
我怎么能用PyPDF2做到这一点(文档真的很差)?或者是否有另一个允许这样做的库?
谢谢
要使用 PyPDF2 从 PDF 文件中删除所有图像,您可以执行以下操作:
from PyPDF2 import PdfFileWriter, PdfFileReader
inputStream = open("src.pdf", "rb")
outputStream = open("dst.pdf", "wb")
src = PdfFileReader(inputStream)
output = PdfFileWriter()
[output.addPage(src.getPage(i)) for i in range(src.getNumPages())]
output.removeImages()
output.write(outputStream)