我在这个问题上很迷茫。我已经阅读了几乎所有关于它的帖子,如果有人能将我推向正确的方向,我将非常感激。
我有一个 PDF,我想提取它的文本,我只对单词和空格感兴趣。我已经设置了一个 CGPDFScanner 和它的回调方法。我读到的是,就提取文本而言,我只需要考虑 4 个运算符 TJ、Tj、qout(') 和 doubleqout(")。
我想我还需要跟踪文本空间,以便能够确定字母是应该放在一起形成一个单词还是应该用空格分隔。但我不知道我将如何做到这一点。
在 PDF 中,所有文本都采用格式
[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ
但我无法弄清楚(使用 PDF 规范)这些数字的含义。SO上有人说你不应该害怕PDF规范,但坦率地说,我觉得它们不太容易阅读/理解。
我研究了有用的 PDFKitten 代码。
任何帮助将不胜感激。