lucene - 使用 PDFBox 提取没有页眉和页脚的文本

Question

我使用 PDFTextStripper 类在 Lucene 索引之前提取 pdf 文本。

是否有可能从提取的文本中排除 pdf 页眉和页脚？

score 0 · Accepted Answer

如果您知道文档中页眉和页脚的确切位置，则可以使用按区域提取文本。希望这可以帮助。

1 回答 1