我正在为我的一个朋友做一个项目。我想找到一个在多个页面上的特定关键字,并且它在大型 PDF 文件(40-60 页及以上)的其他位置有重复项,然后将其保存在找到关键字的页面中,然后拆分这些页面从原始 PDF 文件,最后,将它们合并在一起。
我正在考虑使用PDFMiner或PyPDF2(我也愿意接受其他建议)
我已经为它的大部分编写代码,但我无法找到一个好的和有效的方法来搜索文件并找到那个关键字,因为这个关键字位于同一个文件中的其他地方,并且使确保我要从原始文件中提取的数据不重复,并且所有数据都已提取。
提前致谢。