python - PDF 文件处理（打开一个大的 pdf 文件，找到一个关键字，然后保存在哪个页面中找到了，然后将这些页面拆分并合并到一个 pdf 中）

Question

我正在为我的一个朋友做一个项目。我想找到一个在多个页面上的特定关键字，并且它在大型 PDF 文件（40-60 页及以上）的其他位置有重复项，然后将其保存在找到关键字的页面中，然后拆分这些页面从原始 PDF 文件，最后，将它们合并在一起。

我正在考虑使用PDFMiner或PyPDF2（我也愿意接受其他建议）

我已经为它的大部分编写代码，但我无法找到一个好的和有效的方法来搜索文件并找到那个关键字，因为这个关键字位于同一个文件中的其他地方，并且使确保我要从原始文件中提取的数据不重复，并且所有数据都已提取。

提前致谢。

score 1 · Accepted Answer

您是否尝试在几个块上拆分 pdf 文件并使用多线程在每个块上搜索关键字？这应该更快。

1 回答 1