0

我如何编写将PDF文件转换为HTML的 Java 代码。如果我们在PDF文档中有表格,则同一个表格也将在HTML文件中与颜色、链接等其他内容相同。

4

2 回答 2

2

这是一个两步的过程,因为没有什么能读懂你的想法:

  1. 将 PDF 加载到内存中并使用 iText 之类的库解析内容。
  2. 将内容添加到标记并输出 HTML。

只有您可以决定标记应该是什么以及应该显示什么内容。没有标准,也没有软件可以读懂你的想法。

为什么不能直接将 PDF 流式传输到浏览器并以这种方式显示?不需要 HTML。

于 2013-03-10T14:44:27.387 回答
2

我正在这样做,基于 Apache PDFBox(它是 Java)。请参阅https://bitbucket.org/petermr/pdf2svg转换为 SVG 和https://bitbucket.org/petermr/svg2xml-dev转换为 XML。我将在下周处理桌子。

该过程至少有两个步骤,涉及:

  • 将 PDF 转换为具有字体、大小、x/y 等的 SVG 字符(PDFBox 执行此操作)
  • 使用坐标查找页面的矩形区域。
  • 寻找文本启发式,例如“table 1”
  • 尝试将这些区域解释为矩形表格的单元格

然后,我们必须查看表是否有常规列,并查看这些列是否具有有意义的标签。

于 2013-03-10T14:53:41.967 回答