pdf - 如何使用 Py2PDF 永久删除 PDF 中的裁剪数据？

翻译自：https://stackoverflow.com/questions/69544978 2021-10-12T17:54:44.343

36 次

我有以下代码行：

pip install pypdf2
from PyPDF2 import PdfFileReader, PdfFileWriter
    
file_name = 'medical.pdf'


reader = PdfFileReader(file_name, 'r')
    
for i in range(reader.getNumPages()):
        page = reader.getPage(i)
        page.cropBox.setLowerLeft((14.15367,110.6801))
        page.cropBox.setLowerRight((320,110.6801))
        page.cropBox.setUpperLeft((14.15367, 730.9205))
        page.cropBox.setUpperRight((320, 730.9205))
        writer.addPage(page)

outstream = open('cropped_medical.pdf', 'wb')
writer.write(outstream)
outstream.close()

import textract
text = textract.process('cropped_medical.pdf')

print(text)

出于某种原因，当我打开新裁剪的 pdf 时，我裁剪出的旧文件中的文本仍在显示。

似乎正在发生的是内存中的完整文件仍然可用。但是当我查看 PDF 时，它只显示裁剪部分。

令人沮丧的事实是，裁剪区域之外的东西并没有真正消失。

我怎样才能让 PDF 只存储我在代码中给出的坐标？

pdf - 如何使用 Py2PDF 永久删除 PDF 中的裁剪数据？

0 回答 0

Related

Reference