python - 如何使用 Python 从 PDF 中删除文本

Question

我正在创建一个 python 脚本来编辑 PDF 中的文本。

我有这个 Python 代码，它允许我将文本添加到 PDF 文件的特定位置。

import PyPDF2
import io
from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
import sys

packet = io.BytesIO()
# create a new PDF with Reportlab
can = canvas.Canvas(packet, pagesize=letter)
# Insert code into specific position
can.drawString(300, 115, "Hello world")
can.save()
#move to the beginning of the StringIO buffer
packet.seek(0)
new_pdf = PyPDF2.PdfFileReader(packet)
# read your existing PDF
existing_pdf = PyPDF2.PdfFileReader(open("original.pdf", "rb"))
num_pages = existing_pdf.numPages 
output = PyPDF2.PdfFileWriter()
# add the "watermark" (which is the new pdf) on the existing page
page = existing_pdf.getPage(num_pages-1) # get the last page of the original pdf
page.mergePage(new_pdf.getPage(0)) # merges my created text with my PDF.
x = existing_pdf.getNumPages()
#add all pages from original pdf into output pdf
for n in range(x):
    output.addPage(existing_pdf.getPage(n))
# finally, write "output" to a real file
outputStream = open("output.pdf", "wb")
output.write(outputStream)
outputStream.close()

我的问题：我想用我的自定义文本替换原始 PDF 特定位置的文本。一种写空白字符的方法可以解决问题，但我找不到任何这样做的东西。

PS.：它必须是 Python 代码，因为稍后我需要将其部署为.exe文件，而我只知道如何使用 Python 代码来做到这一点。

score 2 · Accepted Answer

用于替换 PDF 中文本的通用算法是一个难题。我并不是说它永远不可能完成，因为我已经用 Adobe PDF Library 证明了这样做，尽管输入文件非常简单，没有复杂性，但我不确定 pyPDF2 是否具有所需的设施做所以。在某种程度上，仅仅找到文本可能是一个挑战。

您（或更实际地是您的 PDF 库）必须解析页面内容并跟踪图形状态的变化，特别是在文本位于 Form XObject 和文本转换矩阵的情况下对当前转换矩阵的更改，以及更改字体；您必须使用字体资源来获取字符宽度，以确定插入字符串后文本光标可能位于的位置。您可能需要处理在其字体资源中不包含该信息的标准 14 字体（应用程序 - 您的程序 - 应该知道它们的指标）

毕竟，如果您不需要将 Tj 或 TJ（显示文本）指令分解为不同的部分，则删除文本很容易。如果需要的话，防止文本后移可能需要插入新的 Tm 指令以将文本重新定位到它本来应该在的位置。

插入新文本可能具有挑战性。如果您想与所使用的字体保持一致并且它是嵌入的和子集，它可能不一定包含您插入文本所需的字形。插入后，您必须决定是否需要重排插入文本之后的文本。

最后，您将需要您的 PDF 库来保存所有更改。坦率地说，与尝试从头开始编程相比，使用 Adobe Acrobat 的 Redaction 功能可能会更便宜且更具成本效益。

score 0 · Accepted Answer

如果你想用 ReportLab 和 PyPDF2 做一个穷人的编辑，你可以用 ReportLab 创建你的替换内容。给定一个 Canvas、一个指示区域的矩形、一个文本字符串和一个将插入文本字符串的点，您将：

#set a fill color to white:
c.setFillColorRGB(1,1,1)
# draw a rectangle
c.rect([your rectangle], fill=1)
# change color
c.setFillColorRGB(0,0,0)
c.drawString([text insert position], [text string])

将您创建的 PDF 文档保存到临时文件中。使用 PyPDF2 的 PdfFileReader 打开此 PDF 文档和要修改的文档。创建一个 pdfFileWriter 对象，将其命名为 ModifiedDoc。获取临时 PDF 的第 0 页，称之为 updatePage。获取另一个文档的第n页，调用它为ModifyPage。

toModifyPage.mergePage(updatePage)

完成更新页面后：

modifiedDoc.cloneDocumentFromReader(srcDoc)
modifiedDoc.write(outStream)

同样，如果你走这条路，用户可能仍然会在原始文本被新内容覆盖之前看到原始文本，并且文本提取可能会提取该区域的原始文本和新文本，并可能将其混合成难以理解的内容.

python - 如何使用 Python 从 PDF 中删除文本

2 回答 2

Related

Reference