我尝试使用许多库从 PDF 中提取表格,例如: camelot 、 tabula 、 PDFPlumber 、 PDFTabExtract ...但它们没有给出好的结果。主要问题是标题格式复杂,我有不同格式的标题。
使用 camelot,我无法拥有适用于我的 PDF 中所有页面的脚本。当表格有一个旋转的文本标题时,使用 Tabula 时,我得到了一个令人困惑的数据框。使用 PDFPlumber 我遇到了 Stream Table 的问题(它仅适用于 Lattice 表)并且使用 PDFTabExtract 我在旋转文本时遇到了问题,它忽略了它。
有什么解决方案可以转换我的pdf中具有不同格式的任何表格吗?我知道我找不到通用的解决方案,但至少可以找到一个不错的结果。
我应该使用 OCR 吗?你会推荐什么 ?