python - 关于在pdf文档python中突出显示文本的问题

Question

我正在尝试编写一个 python 脚本，该脚本将自动在 pdf 中查找文本并根据

我正在使用 python 的 pymupdf 模块。它适用于一些pdf。但是，对于目标 pdf（组件和属性表的绘图），它会将输出保存为没有数据和一些空白突出显示的空白 pdf。

import fitz

doc=fitz.open("c5.pdf")

page = doc[0]

text = "a"

text_instances = page.searchFor(text)

for inst in text_instances:
    highlight = page.addHighlightAnnot(inst)


doc.save("out.pdf", garbage=4, deflate=True, clean=True)

score 0 · Accepted Answer

您的 PDF 可能包含看起来像文本但又是其他内容的元素。可能它们只是某种类型的图形或图像。在那种情况下，文本搜索当然找不到任何东西。

请在我的 PyMuPDF 存储库上提交一个问题，并附上一些示例 PDF，以便我对此进行调查。

python - 关于在pdf文档python中突出显示文本的问题

1 回答 1

Related

Reference