python - pdfminer - 访问 PDF 表

Question

我正在使用 pdfMiner 解析 PDF，将其用作我的 python 脚本中的库。

在大多数这些 PDF 中都有一个表格，其中一列被命名为“公司”。

有没有办法：1）检测PDF中该表的存在。2) 获取所有公司名称（即表格第二列中的所有条目）。

感谢您的帮助交流

score 0 · Accepted Answer

到目前为止我发现的最好的方法是使用 pdfminer 库中的 HTMLconverter 类。这允许您将 pdf 转换为 HTML 格式，并且更容易找出表格、行和列。至少在我的情况下：它可能适用于 PDF 文件中的各种表格。

1 回答 1