3

我需要 Java 库来执行以下任务 1) 将 Pdf 页面转换为图像 2) 从 PDF 页面中提取 html 文本并在页面上有位置 3) 从 PDF 页面中提取图像

我已经试过了

  1. PDFBox - 它失败并出现错误 -- 不支持/禁用操作:BDC 和 EMC
  2. icePDF - 它适用于任务 1) 和 3),但又是付费的。
  3. PDFRenderer - 它失败了
  4. BFO - 它的付费图书馆,但能够执行任务 1) 和 3)

任何人都可以提出更好的解决方案。

4

3 回答 3

0

你试过JOD 转换器吗?它是自启动 Open Office Server 的 Java API。

要查看它是否转换为您想要的格式,只需安装 Open Office,打开一个文件,然后尝试“另存为”您需要的格式,看看它是否受支持。

于 2012-10-31T13:08:23.843 回答
0

我已按照以下步骤解决 Ubuntu Enviornment 中的问题

步骤 1) 使用 pdftohtml 库将 pdf 转换为 html

步骤 2)在步骤 1 中使用 Jsoup 从 html 中提取具有样式和位置的文本)

步骤 3) 使用 CutyCapt 生成 HTML 快照(如果需要)

我们也可以使用 pdftoppm 命令直接从 pdf 中提取图片

于 2012-10-31T13:21:20.977 回答
-2

您可以使用 PDFBox 完成所有这些操作。但是为了获得这个职位,没有 API。下载最新的PDFBox。转到以下链接以查找您的解决方案。

  1. 将 Pdf 页面转换为图像
  2. 从 PDF 页面中提取图像
  3. 从具有页面位置的 PDF 页面中提取 html 文本略有不同。使用 API,您将无法获取位置信息。但是您可以使用 PDFBox 获取所有位置信息。

请看一下这个链接。在那里你可以看到 getTextPos() 函数。getTextPos().getXPosition()、getTextPos().getYPosition() 将为您提供 X 和 Y 坐标。

于 2012-11-05T07:48:47.337 回答