我正在使用Xpdf从 PDF 文件中提取文本,这与-raw
选项配合得很好,但现在我们想将 PDF 文件转换为 HTML 文件,以提取 HTML 格式化标签,如粗体 <b>、斜体 <i> 等与文本。带有该选项的 Xpdf-html
确实有效,我也尝试过为此使用 pdf2html,但发现它不可靠,因为缺少像 <sup> 和 <sub> 这样的标签。
我们现在使用 Acrobat Reader 将 PDF 文件保存为 HTML 文件,它为我们提供了所有 HTML 格式标记。
有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件?
谢谢你。