0

我正在使用Xpdf从 PDF 文件中提取文本,这与-raw选项配合得很好,但现在我们想将 PDF 文件转换为 HTML 文件,以提取 HTML 格式化标签,如粗体 <b>、斜体 <i> 等与文本。带有该选项的 Xpdf-html确实有效,我也尝试过为此使用 pdf2html,但发现它不可靠,因为缺少像 <sup> 和 <sub> 这样的标签。

我们现在使用 Acrobat Reader 将 PDF 文件保存为 HTML 文件,它为我们提供了所有 HTML 格式标记。

有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件?

谢谢你。

4

1 回答 1

2

PDF 样式信息是完全任意的,不能以任何有意义的方式可靠地映射到 HTML。我幸运的一种策略是使用该-xml选项pdftohtml,然后使用LibXML对输出应用一些启发式方法,并得出原始文档的合理 HTML 近似值。

于 2009-07-27T06:24:55.150 回答