python - 我们应该使用什么 python 库从 PDF 中提取具有复杂标题的表？

Question

我尝试使用许多库从 PDF 中提取表格，例如： camelot 、 tabula 、 PDFPlumber 、 PDFTabExtract ...但它们没有给出好的结果。主要问题是标题格式复杂，我有不同格式的标题。

使用 camelot，我无法拥有适用于我的 PDF 中所有页面的脚本。当表格有一个旋转的文本标题时，使用 Tabula 时，我得到了一个令人困惑的数据框。使用 PDFPlumber 我遇到了 Stream Table 的问题（它仅适用于 Lattice 表）并且使用 PDFTabExtract 我在旋转文本时遇到了问题，它忽略了它。

有什么解决方案可以转换我的pdf中具有不同格式的任何表格吗？我知道我找不到通用的解决方案，但至少可以找到一个不错的结果。

我应该使用 OCR 吗？你会推荐什么？

我真的很感激任何结果。先感谢您。

score 0 · Accepted Answer

PDF 没有专门的方法来描述表格。表格是通过操纵文本块之间的距离来构建的。从 PDF 中提取表格的文本是基于通过分析这些距离来识别类似表格的结构。

由于检测不是确定性的（即像 docx 文件中的表），您提到的每个解决方案对于如何检测表和文本都有自己的启发式方法。每种方法都有其优点和缺点。一个复杂的表格，例如您作为示例给出的表格，必然会从大多数或所有 PDF 文本提取器中产生较差的结果。

OCR 可能会以类似的方式识别表格并给出类似的结果。

python - 我们应该使用什么 python 库从 PDF 中提取具有复杂标题的表？

1 回答 1

Related

Reference