0

我有大约 10,000 个 pdf 文件(conf 论文),我需要从这些论文的某些部分(如实验部分)中提取文本并保存在一个文件中。有谁知道可以帮助我做到这一点的java工具或python工具?

提前致谢

阿尤什

4

3 回答 3

2

您在发布之前研究过您的问题吗?我刚刚搜索了一下,发现了这个 Apache 项目: http: //pdfbox.apache.org/

于 2013-04-22T17:25:41.310 回答
1

对于 java:看看 iText

对于 python,我会使用 PDFMiner

于 2013-04-22T17:27:47.207 回答
0

既然这些是学术论文,你也应该看看lapdftext

LA-PDFText 是一个从基于 PDF 的研究文章中提取准确文本的系统(以及一个能够在需要时提高性能的界面)。该系统是开源的,并提供了一个简单的基线功能,用于使用开发人员可以自定义的规则从主要研究文章中提取文本。

于 2013-11-15T02:28:42.937 回答