最初的任务是将 PDF 裁剪为几个单独的部分。我已经调整了一些参数来完成任务,但有时,我的裁剪方法会导致一个“空白页”,看起来就像它有一个文本(使用 extractText 方法)。所以我想知道如何过滤上面提到的“空白页”。
以下是我的裁剪方法的一部分:
original = 'input.pdf'
target = 'output.pdf'
pdf = PdfFileReader(open(original, 'rb'))
for page in pdf.pages:
for i in range(4):
new_page = copy.copy(page)
if i == 0:
# TOP LEFT
new_page.mediaBox.upperRight = (285.5, 780)
new_page.mediaBox.lowerLeft = (20, 570)
elif i == 1:
# BOTTOM LEFT
new_page.mediaBox.upperRight = (285.5, 400)
new_page.mediaBox.lowerLeft = (20, 190)
elif i == 2:
# TOP RIGHT
new_page.mediaBox.upperRight = (572, 780)
new_page.mediaBox.lowerLeft = (306.5, 570)
elif i == 3:
# BOTTOM RIGHT
new_page.mediaBox.upperRight = (572, 400)
new_page.mediaBox.lowerLeft = (306.5, 190)
out.addPage(new_page)
with open(target, 'wb') as f:
out.write(f)
这是裁剪的 PDF:https ://drive.google.com/open?id=0BxL6yv_HDnNYMEt0OF9RU1BaYWM