我正在使用 CGPDFScanner 扫描 pdf。我应该使用 Td 运算符来查找文本的位置吗?我可以举一个例子来说明如何使用这个运算符来获取文本的位置吗?当前我使用 Tj 和 TJ 运算符来查找文本。现在我想知道每个单词在单页pdf中的位置。我怎样才能做到这一点?
谢谢
我正在使用 CGPDFScanner 扫描 pdf。我应该使用 Td 运算符来查找文本的位置吗?我可以举一个例子来说明如何使用这个运算符来获取文本的位置吗?当前我使用 Tj 和 TJ 运算符来查找文本。现在我想知道每个单词在单页pdf中的位置。我怎样才能做到这一点?
谢谢
查看这个库: https ://github.com/KurtCode/PDFKitten/ 搜索并突出显示文本
要获取文本的坐标,您需要跟踪文本转换矩阵。请参阅 PDF 1.4 参考的第 5.3.1 节“文本定位运算符”。(我不确定更高版本的参考编号是否相同。)虽然Td
运算符将在文本矩阵中设置当前翻译,但还有其他运算符会影响文本矩阵和其他文本状态。在处理文件时,您需要跟踪文本矩阵。操作员将Tm
直接设置文本矩阵。操作员移动到下一行并通过TD
x 和 y 参数进行偏移。T*
只是移动到下一行。