python - python - 忽略页眉和页脚读取pdf

Question

我有一个使用 pymupdf 使用以下语法阅读的 pdf 文件。

import fitz  # this is pymupdf

with fitz.open('file.pdf') as doc:

    text = ""
    for page in doc:
        text += page.getText()

有没有办法在阅读时忽略页眉和页脚？

我尝试将 pdf 转换为 docx，因为它更容易删除标题，但是当我将其转换为 docx 时，我正在处理的 pdf 文件正在重新格式化。

pymupdf 在阅读过程中有什么办法吗？

score 1 · Accepted Answer

该文档有一个专门针对此问题的页面。

适用于大多数 pdf 库的通用解决方案是

1 回答 1