html - 有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件？

Question

我正在使用Xpdf从 PDF 文件中提取文本，这与-raw选项配合得很好，但现在我们想将 PDF 文件转换为 HTML 文件，以提取 HTML 格式化标签，如粗体 <b>、斜体 <i> 等与文本。带有该选项的 Xpdf-html确实有效，我也尝试过为此使用 pdf2html，但发现它不可靠，因为缺少像 <sup> 和 <sub> 这样的标签。

我们现在使用 Acrobat Reader 将 PDF 文件保存为 HTML 文件，它为我们提供了所有 HTML 格式标记。

有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件？

谢谢你。

score 2 · Accepted Answer

PDF 样式信息是完全任意的，不能以任何有意义的方式可靠地映射到 HTML。我幸运的一种策略是使用该-xml选项pdftohtml，然后使用LibXML对输出应用一些启发式方法，并得出原始文档的合理 HTML 近似值。

html - 有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件？

1 回答 1

Related

Reference