1

我想使用IcePDFPDFBox从 PDF 中提取内容。但是我现在没有办法HTML从提取的文本和图像中继续生成网页。

4

1 回答 1

2

您可以使用 PDFBox 将 pdf 转换为 html。试试这个链接

通过在提取文本时添加 -html 作为参数,您将获得 pdf 的 html。但它不会包含任何图像、图形和其他细节。它只会是从 pdf 中提取的 html 格式的文本。

如果您想创建 pdf 的确切外观和感觉,PDFBox 中没有单步方法。据我所知,没有图书馆提供这种工具来创建 pdf 的精确 html。但是使用 PDFBox 您可以提取图像、文本及其详细信息。使用这些细节,您必须创建一个逻辑来生成 html。我们为azzist.com完成了一个将 pdf 转换为 html 的项目。我们已经使用 PDFBox 完成了转换。在 azzist 中,我们将简历转换为 html 格式。(仍然存在一些字体问题)。

Scribd、google、dropbox、zoho 等以更好的方式完成了这种转换。您可以查看这些站点中的任何一个,以检查它们是如何实现这一点的。(你不会明白逻辑。你必须找出它)。

于 2012-12-26T10:30:32.443 回答