我如何编写将PDF文件转换为HTML的 Java 代码。如果我们在PDF文档中有表格,则同一个表格也将在HTML文件中与颜色、链接等其他内容相同。
问问题
6482 次
2 回答
2
这是一个两步的过程,因为没有什么能读懂你的想法:
- 将 PDF 加载到内存中并使用 iText 之类的库解析内容。
- 将内容添加到标记并输出 HTML。
只有您可以决定标记应该是什么以及应该显示什么内容。没有标准,也没有软件可以读懂你的想法。
为什么不能直接将 PDF 流式传输到浏览器并以这种方式显示?不需要 HTML。
于 2013-03-10T14:44:27.387 回答
2
我正在这样做,基于 Apache PDFBox(它是 Java)。请参阅https://bitbucket.org/petermr/pdf2svg转换为 SVG 和https://bitbucket.org/petermr/svg2xml-dev转换为 XML。我将在下周处理桌子。
该过程至少有两个步骤,涉及:
- 将 PDF 转换为具有字体、大小、x/y 等的 SVG 字符(PDFBox 执行此操作)
- 使用坐标查找页面的矩形区域。
- 寻找文本启发式,例如“table 1”
- 尝试将这些区域解释为矩形表格的单元格
然后,我们必须查看表是否有常规列,并查看这些列是否具有有意义的标签。
于 2013-03-10T14:53:41.967 回答