我需要 Java 库来执行以下任务 1) 将 Pdf 页面转换为图像 2) 从 PDF 页面中提取 html 文本并在页面上有位置 3) 从 PDF 页面中提取图像
我已经试过了
- PDFBox - 它失败并出现错误 -- 不支持/禁用操作:BDC 和 EMC
- icePDF - 它适用于任务 1) 和 3),但又是付费的。
- PDFRenderer - 它失败了
- BFO - 它的付费图书馆,但能够执行任务 1) 和 3)
任何人都可以提出更好的解决方案。
我需要 Java 库来执行以下任务 1) 将 Pdf 页面转换为图像 2) 从 PDF 页面中提取 html 文本并在页面上有位置 3) 从 PDF 页面中提取图像
我已经试过了
任何人都可以提出更好的解决方案。
你试过JOD 转换器吗?它是自启动 Open Office Server 的 Java API。
要查看它是否转换为您想要的格式,只需安装 Open Office,打开一个文件,然后尝试“另存为”您需要的格式,看看它是否受支持。
我已按照以下步骤解决 Ubuntu Enviornment 中的问题
步骤 1) 使用 pdftohtml 库将 pdf 转换为 html
步骤 2)在步骤 1 中使用 Jsoup 从 html 中提取具有样式和位置的文本)
步骤 3) 使用 CutyCapt 生成 HTML 快照(如果需要)
我们也可以使用 pdftoppm 命令直接从 pdf 中提取图片
您可以使用 PDFBox 完成所有这些操作。但是为了获得这个职位,没有 API。下载最新的PDFBox。转到以下链接以查找您的解决方案。
请看一下这个链接。在那里你可以看到 getTextPos() 函数。getTextPos().getXPosition()、getTextPos().getYPosition() 将为您提供 X 和 Y 坐标。