html - 使用 pdf2htmlEx 工具将 pdf 转换为 html 期间字体未对齐

Question

PDF 到 HTML 转换的字体问题

我在用

pdf2htmlEX --split-pages 1 --zoom 3 --fit-width 920 --correct-text-visibility 1 --dest-dir $1 $2 2>&1

尝试过

使用--fallback 1选项可以解决我上述所有问题。但

怀疑

你能解释一下关于后备的更多信息吗？

我已经尝试过上述一个（使用后备）。如果您更喜欢用不同的方法来解决上述字体问题，请建议我。

使用 chrome 和 safari 解决上述问题，而在 Firefox 中它运行良好。

score 2 · Accepted Answer

上述问题仅发生在 - 像 chrome 和 safari 这样的 webkit 网络浏览器 - 提供对连字的支持 - 而像 firefox 这样的浏览器则没有。

连字是两个或多个字母组合成一个字形

根本原因

缺少字符的问题是由于这些现代浏览器提供的连字支持 - 让我解释一下

1.转换时的工具-它使用poppler将字符转换为字形进行渲染-现在这些浏览器遇到像tt tf ti ff fi这样的字符时认为它们是连字并搜索对应于tt而不是tt的字形

2.由于它们没有相应的字形——它们只是跳过字符并渲染其余字符——因此，我们发现字符缺失

可以通过

在这些浏览器中禁用/关闭连字 - 将 css 嵌入到生成的内容中

更多详情请参考：

如果我错了，请纠正我。

1 回答 1