我正在尝试创建一个应用程序,它基本上是我的 PDF 收藏的目录。我们谈论的是包含数万个 PDF 的 15-20GB。我还计划包括一个全文搜索机制。我将使用 Lucene.NET 进行搜索(实际上是 NHibernate.Search),以及一个用于 PDF-> 文本转换的库。哪个是最好的选择?我正在考虑这些:
- PDFBox
- pdftotext(来自 xpdf)通过 c# wrapper
- iTextSharp
编辑:其他不错的选择似乎是使用 iFilters。与这些库相比,它们的性能(速度/质量)如何(Foxit/Adobe)?
商业图书馆可能是不可能的,因为它是我的私人项目,而且我真的没有商业解决方案的预算 - 尽管 PDFTextStream 看起来非常好。
从我读过的内容来看, pdftotext比PDFBox 快得多。与 pdftotext 相比,iTextSharp 的性能如何?或者也许有人可以推荐其他好的解决方案?