java - 免费的开源 Java 库，用于转换 PDF - 图像、PDF - HTML、PDF - 提取图像和文本

Question

我需要 Java 库来执行以下任务 1) 将 Pdf 页面转换为图像 2) 从 PDF 页面中提取 html 文本并在页面上有位置 3) 从 PDF 页面中提取图像

我已经试过了

任何人都可以提出更好的解决方案。

score 0 · Accepted Answer

你试过JOD 转换器吗？它是自启动 Open Office Server 的 Java API。

要查看它是否转换为您想要的格式，只需安装 Open Office，打开一个文件，然后尝试“另存为”您需要的格式，看看它是否受支持。

score 0 · Accepted Answer

我已按照以下步骤解决 Ubuntu Enviornment 中的问题

步骤 1) 使用 pdftohtml 库将 pdf 转换为 html

步骤 2）在步骤 1 中使用 Jsoup 从 html 中提取具有样式和位置的文本）

步骤 3) 使用 CutyCapt 生成 HTML 快照（如果需要）

我们也可以使用 pdftoppm 命令直接从 pdf 中提取图片

score -2 · Accepted Answer

您可以使用 PDFBox 完成所有这些操作。但是为了获得这个职位，没有 API。下载最新的PDFBox。转到以下链接以查找您的解决方案。

请看一下这个链接。在那里你可以看到 getTextPos() 函数。getTextPos().getXPosition()、getTextPos().getYPosition() 将为您提供 X 和 Y 坐标。

3 回答 3