c# - 使用 C# 将 PDF 转换为可使用的文本

Question

是否有一个库有一个类可以从 c#.net 中的 pdf 文件中提取文本？我已经尝试了一些，但文档很糟糕，所以我无法将它付诸实践。此外，如果它提供了一个类来提取图像，那将是一个加号。有什么建议么？提前谢谢。

我还需要能够将它实现到现有的应用程序中。

score 3 · Accepted Answer

你试过PDFKit.NET吗？它有合理的文档和一些很好的例子。它是为服务器环境设计的，所以有点贵。

编辑这是 SourceForge 上的一个开源库，名为iTextSharp。它对开源项目是免费的。我没用过，但看起来很有希望。这是一个包含大量代码示例的教程。

score 1 · Accepted Answer

您可以通过多种方式进入此处——其中大部分取决于您是否要保留原始 PDF 的格式（即段落和其他布局元素）。

如果您正在考虑商业解决方案，我们确实提供了两种可能满足您要求的产品。一个是 EasyPDF SDK，它具有单次 ExtractText() 和 ExtractText2() 调用，可将文本作为纯文本从 PDF 中提取出来。

请注意，这些调用的输出非常简单，您将丢失许多原始布局元素。它们非常适合简单的文本提取，但如果您的 PDF 包含表格数据，则可能不是很好。

如果您正在处理表格，一个更好的选择可能是将其作为富文本提取出来。我们有一个名为 EasyConverter SDK 的工具，适用于业务文档，它使用单个函数调用来完成。

使用 EasyConverter SDK，您的原始 PDF 的布局将被保留。

两者都支持 C#，如果您有兴趣，请随时查看 www.pdfonline.com 上的 eval 版本。我确实为供应商工作，所以请把这个建议当作一个爱自己孩子的母亲 :-) 我一直在浏览 stackoverflow.com 以获取代码片段，但最近才开始发布，所以如果你有任何 API 的任何问题都可以告诉我，我可以提供帮助。干杯!

score 1 · Accepted Answer

Docotic.Pdf 库可以从 PDF 文件中提取文本和图像。

您只能从整个文档或某些页面中提取文本。该库可以提取纯文本以及带有坐标的文本块。

您可以从 PDF（JPEG 和 TIFF 文件）中提取图像。

以下是您的任务的几个示例：

从 PDF 中提取文本
从 PDF 中提取图像

Disclaimer: I work for Bit Miracle, vendor of the library.

score 0 · Accepted Answer

我们在工作中使用了 Snowbound 软件进行图像转换。它显然也支持文本提取。但是，它不是免费的。

c# - 使用 C# 将 PDF 转换为可使用的文本

4 回答 4

Related

Reference