是否有一个库有一个类可以从 c#.net 中的 pdf 文件中提取文本?我已经尝试了一些,但文档很糟糕,所以我无法将它付诸实践。此外,如果它提供了一个类来提取图像,那将是一个加号。有什么建议么?提前谢谢。
我还需要能够将它实现到现有的应用程序中。
是否有一个库有一个类可以从 c#.net 中的 pdf 文件中提取文本?我已经尝试了一些,但文档很糟糕,所以我无法将它付诸实践。此外,如果它提供了一个类来提取图像,那将是一个加号。有什么建议么?提前谢谢。
我还需要能够将它实现到现有的应用程序中。
你试过PDFKit.NET吗?它有合理的文档和一些很好的例子。它是为服务器环境设计的,所以有点贵。
编辑这是 SourceForge 上的一个开源库,名为iTextSharp。它对开源项目是免费的。我没用过,但看起来很有希望。 这是一个包含大量代码示例的教程。
您可以通过多种方式进入此处——其中大部分取决于您是否要保留原始 PDF 的格式(即段落和其他布局元素)。
如果您正在考虑商业解决方案,我们确实提供了两种可能满足您要求的产品。一个是 EasyPDF SDK,它具有单次 ExtractText() 和 ExtractText2() 调用,可将文本作为纯文本从 PDF 中提取出来。
请注意,这些调用的输出非常简单,您将丢失许多原始布局元素。它们非常适合简单的文本提取,但如果您的 PDF 包含表格数据,则可能不是很好。
如果您正在处理表格,一个更好的选择可能是将其作为富文本提取出来。我们有一个名为 EasyConverter SDK 的工具,适用于业务文档,它使用单个函数调用来完成。
使用 EasyConverter SDK,您的原始 PDF 的布局将被保留。
两者都支持 C#,如果您有兴趣,请随时查看 www.pdfonline.com 上的 eval 版本。我确实为供应商工作,所以请把这个建议当作一个爱自己孩子的母亲 :-) 我一直在浏览 stackoverflow.com 以获取代码片段,但最近才开始发布,所以如果你有任何 API 的任何问题都可以告诉我,我可以提供帮助。干杯!
Docotic.Pdf 库可以从 PDF 文件中提取文本和图像。
您只能从整个文档或某些页面中提取文本。该库可以提取纯文本以及带有坐标的文本块。
您可以从 PDF(JPEG 和 TIFF 文件)中提取图像。
以下是您的任务的几个示例:
Disclaimer: I work for Bit Miracle, vendor of the library.
我们在工作中使用了 Snowbound 软件进行图像转换。它显然也支持文本提取。但是,它不是免费的。