Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 pdfMiner 解析 PDF,将其用作我的 python 脚本中的库。
在大多数这些 PDF 中都有一个表格,其中一列被命名为“公司”。
有没有办法:1)检测PDF中该表的存在。2) 获取所有公司名称(即表格第二列中的所有条目)。
感谢您的帮助交流
到目前为止我发现的最好的方法是使用 pdfminer 库中的 HTMLconverter 类。这允许您将 pdf 转换为 HTML 格式,并且更容易找出表格、行和列。至少在我的情况下:它可能适用于 PDF 文件中的各种表格。