tabula-py - Tabula 字体警告导致无法从文档中解析表格。这是它应该如何工作的吗？

Question

我解析了 3 个文档以获取表格。结果如下：

文档1：完美解析。
文档 2：获得 2019 年 7 月 16 日下午 5:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font 警告：使用后备字体 NimbusSanL-Bold for Univers-Bold 不确定这是否相关，但第二页已解析并第一个不是。
文档 3：2019 年 7 月 17 日上午 10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font 警告：使用后备字体 NimbusSanL-Regu for Univers。从这个没有解析任何内容。

这些是当前的表格解析设置：

     rows = tabula.read_pdf(filename,
                       pages='all',
                       silent=True,
                       pandas_options={
                           'header': None,
                           'error_bad_lines': False,
                           'warn_bad_lines': False
                       })

是否有其他设置可以解决此特定问题。

score 0 · Accepted Answer

警告来自 tabula-java 依赖的 PDFBox。不幸的是，问题本身来自 PDF 本身，无法使用 tabula-py 解决。

tabula-py - Tabula 字体警告导致无法从文档中解析表格。这是它应该如何工作的吗？

1 回答 1

Related

Reference