我正在尝试在 python 中编写一个 pdf 布局分析器。使用 Pandas 进行工作,我已经能够产生一些相当不错的结果。但是,到目前为止,我一直在使用 JPedal 生成的数据,但是生成的坐标似乎包含一些相当大的不准确之处,这会影响最终结果。目前,我正在使用 Pandas DF 中表示的数据,如下所示:
font page style words x1 x2 y1 y2
0 Times-Roman 1 font-size:22pt K 206 214 120 144
1 Times-Roman 1 font-size:22pt O 226 234 120 144
2 Times-Roman 1 font-size:22pt H 245 253 120 144
现在我正在考虑尝试使用 pdfminer 来生成包含相同基本属性的数据。据我了解,我应该使用 pdfminer 布局对象来获取这些数据。不幸的是,文档有点模糊。指向解决方案的指针将不胜感激。