html - 如何以干净的格式将pdf转换为html？

Question

是否有网站或软件可以将 PDF 干净地转换为 HTML 文档而没有大量的 HTML 乱码？

score 3 · Accepted Answer

这里的挑战是 PDF 是一种布局语言，而不是语义语言，而 HTML 则相反。

这意味着当转换为 HTML 以保持对最终用户的可读性时，您必须强制 HTML 通过定位单个单词（有时是字母）来进行布局，并且语义结构经常出现乱码或丢失 - 因此是胡言乱语。

您可以通过打开几乎任何代表文本文档的 PDF 文件并尝试（通过眼睛）在文本中查找单词或段落来了解问题所在。

将此与 HTML 文档进行比较，后者通常可以直接从源代码中读取。

score 0 · Accepted Answer

HTML 乱码通常是由 PDF 文件本身引起的，而不是用于转换它的软件。您可以使用任意数量的包将 PDF 转换为 HTML。一些选择包括PDF Miner、PDFTOHTML，我相信PDFTK。您是否会得到任何 HTML 乱码并没有那么明确的定义。

2 回答 2