我有一个使用 pymupdf 使用以下语法阅读的 pdf 文件。
import fitz # this is pymupdf
with fitz.open('file.pdf') as doc:
text = ""
for page in doc:
text += page.getText()
有没有办法在阅读时忽略页眉和页脚?
我尝试将 pdf 转换为 docx,因为它更容易删除标题,但是当我将其转换为 docx 时,我正在处理的 pdf 文件正在重新格式化。
pymupdf 在阅读过程中有什么办法吗?