有没有一个很好的库可以从 PDF 中提取文本?如果需要,我愿意为此付出代价。
与 C# 或经典 ASP (VBScript) 一起使用的东西是理想的,我还需要能够将页面与 PDF 分开。
有没有一个很好的库可以从 PDF 中提取文本?如果需要,我愿意为此付出代价。
与 C# 或经典 ASP (VBScript) 一起使用的东西是理想的,我还需要能够将页面与 PDF 分开。
您可以使用 Windows 内置的 IFilter 接口从任何受支持的文件类型中提取文本和属性(作者、标题等)。它是一个 COM 接口,因此您可以使用 .NET 互操作工具。
您还必须从 Adobe 下载免费的 PDF IFilter 驱动程序。
我们使用Aspose 取得了不错的效果。
Docotic.Pdf 库可用于从 PDF 文档中提取格式化或纯文本。
该库可以阅读任何版本的 PDF 文档(直到最新发布的标准)。该库还支持提取页面。
示例代码链接:
免责声明:我为图书馆的供应商工作。
除了批准的答案之外:还有替代的商业解决方案可以替代 Adobe IFilter 进行文本索引(提供类似的 API,但也提供额外的高级功能):
如果您正在寻找可用于托管 .NET 应用程序和传统编程语言(如经典 ASP 或 VB6)的单一工具,那么这就是商业ByteScout PDF Extractor SDK适合的地方,因为它同时提供 .NET 和 ActiveX/COM API .
免责声明:我为 ByteScout 工作