我想做的很简单:给定一个包含论文/书籍的 PDF/PS/DjVu 文件,找到论文的作者和标题(任何其他元数据都可以,但不需要太多)。这种认可不一定是完美的,但我想尽可能地做到最好。我正在寻找允许访问这些文件的元数据和内容的开源 .NET 和/或 Java 库(最好是 .NET)。
对于 PDF,我找到了PDFBox (.NET/Java) 和PDF Library (.NET),但可能有更好的选择我不知道;对于 Postscript 和 DjVu,我什么也没找到。
我想做的很简单:给定一个包含论文/书籍的 PDF/PS/DjVu 文件,找到论文的作者和标题(任何其他元数据都可以,但不需要太多)。这种认可不一定是完美的,但我想尽可能地做到最好。我正在寻找允许访问这些文件的元数据和内容的开源 .NET 和/或 Java 库(最好是 .NET)。
对于 PDF,我找到了PDFBox (.NET/Java) 和PDF Library (.NET),但可能有更好的选择我不知道;对于 Postscript 和 DjVu,我什么也没找到。
另一个 PDF 库是PDFSharp。它具有相当不错的读取/解析功能。
对于大多数 PDF 操作,我们使用iTextSharp。这是原始 Java 实现的一个端口。
对于 DjVu,您可以使用来自CamiNova的商业 SDK或开源库 DjVu Libre。
对于 Djvu,您可以使用位于以下位置的 C# 库:https ://github.com/Telavian/DjvuNet