4

有没有一个很好的库可以从 PDF 中提取文本?如果需要,我愿意为此付出代价。

与 C# 或经典 ASP (VBScript) 一起使用的东西是理想的,我还需要能够将页面与 PDF 分开。

这个问题有一些有趣的东西,尤其是pdftotext ,但如果可以的话,我想避免调用外部命令行应用程序。

4

5 回答 5

4

您可以使用 Windows 内置的 IFilter 接口从任何受支持的文件类型中提取文本和属性(作者、标题等)。它是一个 COM 接口,因此您可以使用 .NET 互操作工具。

您还必须从 Adob​​e 下载免费的 PDF IFilter 驱动程序。

于 2008-09-05T21:12:38.977 回答
0

这是一个很好的列表: PDF/C# 的开源库

其中大多数是针对创建 PDF 的,但它们也应该具有阅读能力。

还有这个:iText

我以前只玩过 iText。没什么大不了的。

于 2008-09-05T21:03:13.027 回答
0

我们使用Aspose 取得了不错的效果。

于 2008-09-05T21:23:28.373 回答
0

Docotic.Pdf 库可用于从 PDF 文档中提取格式化或纯文本。

该库可以阅读任何版本的 PDF 文档(直到最新发布的标准)。该库还支持提取页面。

示例代码链接:

免责声明:我为图书馆的供应商工作。

于 2012-01-21T22:22:31.407 回答
0

除了批准的答案之外:还有替代的商业解决方案可以替代 Adob​​e IFilter 进行文本索引(提供类似的 API,但也提供额外的高级功能):

  1. Foxit PDF IFilter:与 Adob​​e 的插件相比,提供更快的文本索引。
  2. PDFLib PDF iFilter:包括对损坏的 PDF 文档的支持以及用于运行您自己的查询的附加 API。

如果您正在寻找可用于托管 .NET 应用程序和传统编程语言(如经典 ASP 或 VB6)的单一工具,那么这就是商业ByteScout PDF Extractor SDK适合的地方,因为它同时提供 .NET 和 ActiveX/COM API .

免责声明:我为 ByteScout 工作

于 2015-02-24T11:43:46.033 回答