3

我需要从这本既有文字又有图片的杂志中提取“文章”。图像内容必须分开放置,文本提取(尽可能)并分开放置。

我该怎么做呢?是否已经有商业服务/ api可以做到这一点?程序/服务的输入只是文件。

例如输入:http ://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(实际文件将是一个普通的 pdf 文件,而不是一个安全的)

4

4 回答 4

1

Docotic.Pdf 库可以为您从 PDF 文件中提取图像和文本。

以下是您的任务的几个示例:

提取的图像可以保存为 JPEG 和 TIFF。您可以从每一页或整个文档中提取文本。您可以提取带有坐标的文本块。

免责声明:我为图书馆供应商 Bit Miracle 工作。

于 2011-09-01T17:41:34.173 回答
0

如果您负担得起商业选择,Amyuni PDF Creator将允许您枚举 pdf 文件中的所有组件(文本、图像等),您将能够将它们提取为独立对象,并且可以使用它们创建新的 PDF 文件。

于 2011-05-04T21:09:19.573 回答
0

您可以使用Aspose.Pdf.Kit从 PDF 文件中分别提取文本和图像。API 非常简单。您还可以在 Aspose 网站上找到示例、教程和支持。

注意:我在 Aspose 担任开发人员布道师。

于 2011-05-05T12:27:01.703 回答
0

试试这个:

http://asp.syncfusion.com/sfaspnetsamplebrowser/9.1.0.20/Web/Pdf.Web/samples/4.0/Importing/TextExtraction/CS/Default.aspx?args=7

相同的组件还具有图像提取功能。

你可以试试!!

于 2011-05-04T07:23:00.433 回答