我正在使用python对pdf文件中的表格进行网络抓取
有人可以建议我一个很好的模块,它可以获取唯一需要的表我已经尝试过 pypdf,pdf2html,ocr,slate 但没有任何效果
谢谢
我正在使用python对pdf文件中的表格进行网络抓取
有人可以建议我一个很好的模块,它可以获取唯一需要的表我已经尝试过 pypdf,pdf2html,ocr,slate 但没有任何效果
谢谢
首先,将 PDF 转换为 HTML。请参阅使用 Python 将 PDF 转换为 HTML。
然后,使用 HTML 解析库,解析从 PDF 生成的 HTML。请参阅BeautifulSoup HTML 表格解析