我有大约 10,000 个 pdf 文件(conf 论文),我需要从这些论文的某些部分(如实验部分)中提取文本并保存在一个文件中。有谁知道可以帮助我做到这一点的java工具或python工具?
提前致谢
阿尤什
您在发布之前研究过您的问题吗?我刚刚搜索了一下,发现了这个 Apache 项目: http: //pdfbox.apache.org/
对于 java:看看 iText
对于 python,我会使用 PDFMiner
既然这些是学术论文,你也应该看看lapdftext
LA-PDFText 是一个从基于 PDF 的研究文章中提取准确文本的系统(以及一个能够在需要时提高性能的界面)。该系统是开源的,并提供了一个简单的基线功能,用于使用开发人员可以自定义的规则从主要研究文章中提取文本。