pdf - 从 pdf 中提取文本时，如果字体具有 ToUnicode 映射，我应该关心编码吗？

Question

我正在尝试从 pdf 中提取文本。Pdf 参考是一个真正的地狱，留下了很多没有答案的实际问题。我的问题是：如果字体字典包含 /ToUnicode CMap 和 /Encoding，CMap 是否总是涵盖与该字体一起使用的所有字符，这意味着我不需要使用 /Encoding 或其他任何东西来获取用这个打印的文本字体？pdf参考的第5.9章似乎回答是，但我的一些测试似乎回答不是。

score 1 · Accepted Answer

第 5.9 章是正确的，ToUnicode Cmap 应该足以用于文本提取。问题是许多 PDF 文件没有正确遵循 PDF 规范，您必须实施自己的启发式方法来提取文本。
您从 PDF 规范开始，然后根据您遇到的不合格 PDF 文件使用各种增强功能更新您的文本提取方法。

pdf - 从 pdf 中提取文本时，如果字体具有 ToUnicode 映射，我应该关心编码吗？

1 回答 1

Related

Reference