c# - 使用 Foxit SDK 提取文本格式 pdf

Question

我正在使用Foxit SDK从 Pdf 文档中提取文本。

一切都很好，但是当我提取其他语言而不是英语的 pdf 时，我没有得到正确的输出。

我也在java中使用过PDFBox，但这给了我最差的输出，Foxit SDK的输出比PDFBox好。

是否有其他可以解决问题的库..？或者还有其他解决方案。

score 0 · Accepted Answer

您可能想试用 Quick PDF Library 的试用版，看看它在您的文档上的表现如何。 http://www.quickpdflibrary.com

QP.GetPageText(7) 或 GetPageText(8) 对大多数 PDF 文件都返回了很好的结果。

安德鲁。

免责声明：我为 Quick PDF Library 做了一些咨询工作。

score 0 · Accepted Answer

如果您在 Windows 上，则可以使用 adobe 提供的 IFilter。我，我使用了 adobe reader 8 提供的 IFilter adobe。这是我使用的确切示例的链接

性能还可以（我认为。我没有使用很多其他方法）。400 页 PDF 大约需要 15 秒。

score 0 · Accepted Answer

就个人而言，如果你想把它做好，你必须为此付出代价。ComponentOne 有一个用于 WPF 的 PDFViewer。由于您的标签缺少一个，因此不确定您使用的是什么框架。

3 回答 3