我正在尝试从 pdf 中提取文本。Pdf 参考是一个真正的地狱,留下了很多没有答案的实际问题。我的问题是:如果字体字典包含 /ToUnicode CMap 和 /Encoding,CMap 是否总是涵盖与该字体一起使用的所有字符,这意味着我不需要使用 /Encoding 或其他任何东西来获取用这个打印的文本字体?pdf参考的第5.9章似乎回答是,但我的一些测试似乎回答不是。
问问题
283 次
我正在尝试从 pdf 中提取文本。Pdf 参考是一个真正的地狱,留下了很多没有答案的实际问题。我的问题是:如果字体字典包含 /ToUnicode CMap 和 /Encoding,CMap 是否总是涵盖与该字体一起使用的所有字符,这意味着我不需要使用 /Encoding 或其他任何东西来获取用这个打印的文本字体?pdf参考的第5.9章似乎回答是,但我的一些测试似乎回答不是。