我需要从这本既有文字又有图片的杂志中提取“文章”。图像内容必须分开放置,文本提取(尽可能)并分开放置。
我该怎么做呢?是否已经有商业服务/ api可以做到这一点?程序/服务的输入只是文件。
例如输入:http ://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf
(实际文件将是一个普通的 pdf 文件,而不是一个安全的)
我需要从这本既有文字又有图片的杂志中提取“文章”。图像内容必须分开放置,文本提取(尽可能)并分开放置。
我该怎么做呢?是否已经有商业服务/ api可以做到这一点?程序/服务的输入只是文件。
例如输入:http ://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf
(实际文件将是一个普通的 pdf 文件,而不是一个安全的)
Docotic.Pdf 库可以为您从 PDF 文件中提取图像和文本。
以下是您的任务的几个示例:
提取的图像可以保存为 JPEG 和 TIFF。您可以从每一页或整个文档中提取文本。您可以提取带有坐标的文本块。
免责声明:我为图书馆供应商 Bit Miracle 工作。
如果您负担得起商业选择,Amyuni PDF Creator将允许您枚举 pdf 文件中的所有组件(文本、图像等),您将能够将它们提取为独立对象,并且可以使用它们创建新的 PDF 文件。
您可以使用Aspose.Pdf.Kit从 PDF 文件中分别提取文本和图像。API 非常简单。您还可以在 Aspose 网站上找到示例、教程和支持。
注意:我在 Aspose 担任开发人员布道师。
试试这个:
相同的组件还具有图像提取功能。
你可以试试!!