5

是否有网站或软件可以将 PDF 干净地转换为 HTML 文档而没有大量的 HTML 乱码?

4

2 回答 2

3

这里的挑战是 PDF 是一种布局语言,而不是语义语言,而 HTML 则相反。

这意味着当转换为 HTML 以保持对最终用户的可读性时,您必须强制 HTML 通过定位单个单词(有时是字母)来进行布局,并且语义结构经常出现乱码或丢失 - 因此是胡言乱语。

您可以通过打开几乎任何代表文本文档的 PDF 文件并尝试(通过眼睛)在文本中查找单词或段落来了解问题所在。

将此与 HTML 文档进行比较,后者通常可以直接从源代码中读取。

于 2012-09-10T23:10:22.873 回答
0

HTML 乱码通常是由 PDF 文件本身引起的,而不是用于转换它的软件。您可以使用任意数量的包将 PDF 转换为 HTML。一些选择包括PDF MinerPDFTOHTML,我相信PDFTK。您是否会得到任何 HTML 乱码并没有那么明确的定义。

于 2012-09-10T21:03:38.780 回答