0

我正在使用Foxit SDK从 Pdf 文档中提取文本。

一切都很好,但是当我提取其他语言而不是英语的 pdf 时,我没有得到正确的输出。

我也在java中使用过PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox好。

是否有其他可以解决问题的库..?或者还有其他解决方案。

4

3 回答 3

0

您可能想试用 Quick PDF Library 的试用版,看看它在您的文档上的表现如何。 http://www.quickpdflibrary.com

QP.GetPageText(7) 或 GetPageText(8) 对大多数 PDF 文件都返回了很好的结果。

安德鲁。

免责声明:我为 Quick PDF Library 做了一些咨询工作。

于 2012-01-27T11:43:21.197 回答
0

如果您在 Windows 上,则可以使用 adobe 提供的 IFilter。我,我使用了 adobe reader 8 提供的 IFilter adobe。这是我使用的确切示例的链接

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

性能还可以(我认为。我没有使用很多其他方法)。400 页 PDF 大约需要 15 秒。

于 2013-04-16T12:49:59.873 回答
0

就个人而言,如果你想把它做好,你必须为此付出代价。ComponentOne 有一个用于 WPF 的 PDFViewer。由于您的标签缺少一个,因此不确定您使用的是什么框架。

WPF 的 ComponentOne PDF 查看器

于 2012-01-27T06:05:51.480 回答