6

我在一家博物馆工作,目录中有数百份科学论文 pdf。我对所有这些都进行了 OCR,以便可以在 Adob​​e Reader 等程序中搜索关键字。我需要编写一个程序,允许我在此目录中搜索特定物种名称并生成与关键字匹配的文档列表以及相应的页码。

我正在寻找一个 pdf 库,我可以用它(希望)免费完成这项任务。我使用PDFOne 库编写了一个小程序,但搜索需要大约 10 分钟才能在整个目录中搜索一个术语。我想大大缩短时间,因为 Adob​​e Reader 和 PDF-XchangeViewer 可以在一分钟内执行相同的搜索。我对使用的语言没有偏好。

谁能指导我找到正确的资源,以便我可以完成这项任务?谢谢。

4

1 回答 1

2

我建议您评估 Apache Solr 的使用 - 它可以非常有效地索引 PDF 文件。

http://lucene.apache.org/solr/

于 2013-09-11T10:18:17.083 回答