我有以下代码行:
pip install pypdf2
from PyPDF2 import PdfFileReader, PdfFileWriter
file_name = 'medical.pdf'
reader = PdfFileReader(file_name, 'r')
for i in range(reader.getNumPages()):
page = reader.getPage(i)
page.cropBox.setLowerLeft((14.15367,110.6801))
page.cropBox.setLowerRight((320,110.6801))
page.cropBox.setUpperLeft((14.15367, 730.9205))
page.cropBox.setUpperRight((320, 730.9205))
writer.addPage(page)
outstream = open('cropped_medical.pdf', 'wb')
writer.write(outstream)
outstream.close()
import textract
text = textract.process('cropped_medical.pdf')
print(text)
出于某种原因,当我打开新裁剪的 pdf 时,我裁剪出的旧文件中的文本仍在显示。
似乎正在发生的是内存中的完整文件仍然可用。但是当我查看 PDF 时,它只显示裁剪部分。
令人沮丧的事实是,裁剪区域之外的东西并没有真正消失。
我怎样才能让 PDF 只存储我在代码中给出的坐标?