python - pdfminer 的单词坐标

Question

我正在尝试在 python 中编写一个 pdf 布局分析器。使用 Pandas 进行工作，我已经能够产生一些相当不错的结果。但是，到目前为止，我一直在使用 JPedal 生成的数据，但是生成的坐标似乎包含一些相当大的不准确之处，这会影响最终结果。目前，我正在使用 Pandas DF 中表示的数据，如下所示：

          font  page           style words   x1   x2   y1   y2
0  Times-Roman     1  font-size:22pt     K  206  214  120  144
1  Times-Roman     1  font-size:22pt     O  226  234  120  144
2  Times-Roman     1  font-size:22pt     H  245  253  120  144

现在我正在考虑尝试使用 pdfminer 来生成包含相同基本属性的数据。据我了解，我应该使用 pdfminer 布局对象来获取这些数据。不幸的是，文档有点模糊。指向解决方案的指针将不胜感激。

score 1 · Accepted Answer

我一直在一个项目中使用 PDFMiner，只需使用它的命令行工具来生成 XML，并使用那里的坐标。

这将获取单个字符的坐标 - 我正在从那里进行自己的布局分析，因为我没有发现内置分析在我的文档上运行得足够好。

python - pdfminer 的单词坐标

1 回答 1

Related

Reference