Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
是否有网站或软件可以将 PDF 干净地转换为 HTML 文档而没有大量的 HTML 乱码?
这里的挑战是 PDF 是一种布局语言,而不是语义语言,而 HTML 则相反。
这意味着当转换为 HTML 以保持对最终用户的可读性时,您必须强制 HTML 通过定位单个单词(有时是字母)来进行布局,并且语义结构经常出现乱码或丢失 - 因此是胡言乱语。
您可以通过打开几乎任何代表文本文档的 PDF 文件并尝试(通过眼睛)在文本中查找单词或段落来了解问题所在。
将此与 HTML 文档进行比较,后者通常可以直接从源代码中读取。
HTML 乱码通常是由 PDF 文件本身引起的,而不是用于转换它的软件。您可以使用任意数量的包将 PDF 转换为 HTML。一些选择包括PDF Miner、PDFTOHTML,我相信PDFTK。您是否会得到任何 HTML 乱码并没有那么明确的定义。