0

PDF 到 HTML 转换的字体问题

  1. 缺少所有“ti”、“fi”、“tt”字符

示例屏幕截图

  1. 字体重叠问题

示例屏幕截图

  • 注意:我没有遇到 Firefox 的这个问题。在 Safari 浏览器中的 chrome 中获取上述问题

我在用

  • 使用0.13.6版本的pdf2htmlEX
  • 使用以下命令将pdf转换为html

pdf2htmlEX --split-pages 1 --zoom 3 --fit-width 920 --correct-text-visibility 1 --dest-dir $1 $2 2>&1

尝试过

使用--fallback 1选项可以解决我上述所有问题。但

  1. 后备选项降低了文档的清晰度。
  2. 页面中的表格消失,而被空白空间取代。

怀疑

  1. 你能解释一下关于后备的更多信息吗?

  2. 我已经尝试过上述一个(使用后备)。如果您更喜欢用不同的方法来解决上述字体问题,请建议我。

使用 chrome 和 safari 解决上述问题,而在 Firefox 中它运行良好。

4

1 回答 1

2

上述问题仅发生在 - 像 chrome 和 safari 这样的 webkit 网络浏览器 - 提供对连字的支持 - 而像 firefox 这样的浏览器则没有。

是两个或多个字母组合成一个字形

​根本原因

缺少字符的问题是由于这些现代浏览器提供的连字支持 - 让我解释一下

1.转换时的工具-它使用poppler将字符转换为字形进行渲染-现在这些浏览器遇到像tt tf ti ff fi这样的字符时认为它们是连字并搜索对应于tt而不是tt的字形

2.由于它们没有相应的字形——它们只是跳过字符并渲染其余字符——因此,我们发现字符缺失

可以通过

在这些浏览器中禁用/关闭连字 - 将 css 嵌入到生成的内容中

更多详情请参考:

如果我错了,请纠正我。

于 2016-06-05T07:59:34.453 回答