0

我有一个使用 pymupdf 使用以下语法阅读的 pdf 文件。

import fitz  # this is pymupdf

with fitz.open('file.pdf') as doc:

    text = ""
    for page in doc:
        text += page.getText()

有没有办法在阅读时忽略页眉和页脚?

我尝试将 pdf 转换为 docx,因为它更容易删除标题,但是当我将其转换为 docx 时,我正在处理的 pdf 文件正在重新格式化。

pymupdf 在阅读过程中有什么办法吗?

4

1 回答 1

1

该文档有一个专门针对此问题的页面。

  1. 定义省略标题的矩形
  2. 使用 page.get_textbox(rect) 方法。

来源:https ://github.com/pymupdf/PyMuPDF-Utilities/tree/master/textbox-extraction#2-pageget_textboxrect

适用于大多数 pdf 库的通用解决方案是

  1. 检查 pdf 文件中页眉/页脚部分的大小
  2. 循环文档中的每个文本并检查它的垂直位置
于 2021-11-11T19:00:37.163 回答