page.getTextBlocks()
输出
[(42.5, 86.45002746582031, 523.260009765625, 100.22002410888672, TEXT, 0, 0),
(65.75, 103.4000244140625, 266.780029296875, 159.59010314941406, TEXT, 1, 0),
(48.5, 86.123456, 438.292048492, 100.92920404974, TEXT, 0, 0)]
(x0, y0, x1, y1, "块中的行", block_type, block_no)
我的主要目标是:
在 PDF 中搜索文本并将其突出显示 必须搜索的文本在一页中可以存在 n 次。使用tp.search(text,hit_max=1)
它可能会限制出现的最大数量,但它不会解决问题,因为它会选择文本的第一次出现,但对我来说可能是第二次或第三次出现很重要。
我的想法是:
getTextBlocks 提取上面提到的文本,使用这个信息特别是 block_no,我想page.searchFor
为那个特定的块执行功能。从逻辑上讲它应该是可能的,但实际上我需要关于如何做到这一点的帮助。
对于实现主要目标的任何投入,我将不胜感激。
谢谢