0

我正在使用python对pdf文件中的表格进行网络抓取

有人可以建议我一个很好的模块,它可以获取唯一需要的表我已经尝试过 pypdf,pdf2html,ocr,slate 但没有任何效果

谢谢

4

1 回答 1

3

首先,将 PDF 转换为 HTML。请参阅使用 Python 将 PDF 转换为 HTML

然后,使用 HTML 解析库,解析从 PDF 生成的 HTML。请参阅BeautifulSoup HTML 表格解析

于 2012-06-07T06:41:26.140 回答