我正在使用Foxit SDK从 Pdf 文档中提取文本。
一切都很好,但是当我提取其他语言而不是英语的 pdf 时,我没有得到正确的输出。
我也在java中使用过PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox好。
是否有其他可以解决问题的库..?或者还有其他解决方案。
您可能想试用 Quick PDF Library 的试用版,看看它在您的文档上的表现如何。 http://www.quickpdflibrary.com
QP.GetPageText(7) 或 GetPageText(8) 对大多数 PDF 文件都返回了很好的结果。
安德鲁。
免责声明:我为 Quick PDF Library 做了一些咨询工作。
如果您在 Windows 上,则可以使用 adobe 提供的 IFilter。我,我使用了 adobe reader 8 提供的 IFilter adobe。这是我使用的确切示例的链接
http://www.codeproject.com/Articles/13391/Using-IFilter-in-C
性能还可以(我认为。我没有使用很多其他方法)。400 页 PDF 大约需要 15 秒。
就个人而言,如果你想把它做好,你必须为此付出代价。ComponentOne 有一个用于 WPF 的 PDFViewer。由于您的标签缺少一个,因此不确定您使用的是什么框架。