1

我正在使用 pdfMiner 解析 PDF,将其用作我的 python 脚本中的库。

在大多数这些 PDF 中都有一个表格,其中一列被命名为“公司”。

有没有办法:1)检测PDF中该表的存在。2) 获取所有公司名称(即表格第二列中的所有条目)。

感谢您的帮助交流

4

1 回答 1

0

到目前为止我发现的最好的方法是使用 pdfminer 库中的 HTMLconverter 类。这允许您将 pdf 转换为 HTML 格式,并且更容易找出表格、行和列。至少在我的情况下:它可能适用于 PDF 文件中的各种表格。

于 2016-12-14T15:32:54.590 回答