java - 自动从pdf中提取许多文件的文本

Question

我有大约 10,000 个 pdf 文件（conf 论文），我需要从这些论文的某些部分（如实验部分）中提取文本并保存在一个文件中。有谁知道可以帮助我做到这一点的java工具或python工具？

提前致谢

阿尤什

score 2 · Accepted Answer

您在发布之前研究过您的问题吗？我刚刚搜索了一下，发现了这个 Apache 项目： http: //pdfbox.apache.org/

score 1 · Accepted Answer

1

对于 java：看看 iText

对于 python，我会使用 PDFMiner

于 2013-04-22T17:27:47.207 回答

score 0 · Accepted Answer

既然这些是学术论文，你也应该看看lapdftext

LA-PDFText 是一个从基于 PDF 的研究文章中提取准确文本的系统（以及一个能够在需要时提高性能的界面）。该系统是开源的，并提供了一个简单的基线功能，用于使用开发人员可以自定义的规则从主要研究文章中提取文本。

3 回答 3