0

我有以下代码行:

pip install pypdf2
from PyPDF2 import PdfFileReader, PdfFileWriter
    
file_name = 'medical.pdf'


reader = PdfFileReader(file_name, 'r')
    
for i in range(reader.getNumPages()):
        page = reader.getPage(i)
        page.cropBox.setLowerLeft((14.15367,110.6801))
        page.cropBox.setLowerRight((320,110.6801))
        page.cropBox.setUpperLeft((14.15367, 730.9205))
        page.cropBox.setUpperRight((320, 730.9205))
        writer.addPage(page)

outstream = open('cropped_medical.pdf', 'wb')
writer.write(outstream)
outstream.close()

import textract
text = textract.process('cropped_medical.pdf')

print(text)

出于某种原因,当我打开新裁剪的 pdf 时,我裁剪出的旧文件中的文本仍在显示。

似乎正在发生的是内存中的完整文件仍然可用。但是当我查看 PDF 时,它只显示裁剪部分。

令人沮丧的事实是,裁剪区域之外的东西并没有真正消失。

我怎样才能让 PDF 只存储我在代码中给出的坐标?

4

0 回答 0