0

我正在尝试从 pdf 中提取文本。Pdf 参考是一个真正的地狱,留下了很多没有答案的实际问题。我的问题是:如果字体字典包含 /ToUnicode CMap 和 /Encoding,CMap 是否总是涵盖与该字体一起使用的所有字符,这意味着我不需要使用 /Encoding 或其他任何东西来获取用这个打印的文本字体?pdf参考的第5.9章似乎回答是,但我的一些测试似乎回答不是。

4

1 回答 1

1

第 5.9 章是正确的,ToUnicode Cmap 应该足以用于文本提取。问题是许多 PDF 文件没有正确遵循 PDF 规范,您必须实施自己的启发式方法来提取文本。
您从 PDF 规范开始,然后根据您遇到的不合格 PDF 文件使用各种增强功能更新您的文本提取方法。

于 2012-06-08T16:05:29.703 回答