我正在使用 PyMuPDF 从块单元的 PDF 中提取文本。在许多情况下,“块”似乎只是默认为换行符分隔的单元,而不是逻辑段落。
import fitz
doc = fitz.open("example.pdf")
blocks = [x[4] for x in doc[0].getText("blocks")]
print(blocks)
(example.pdf 可以在这里找到)
如果不是从 Mac 的沼泽标准预览应用程序直接复制/粘贴,我可以忍受这一点,精美地保留了段落。PyMuPDF 不做的 Preview 是什么?我的管道的其余部分几乎都锁定在 PyMuPDF 中,所以我不能真正使用 Preview 进行提取。