0

我解析了 3 个文档以获取表格。结果如下:

  1. 文档1:完美解析。
  2. 文档 2:获得 2019 年 7 月 16 日下午 5:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:使用后备字体 NimbusSanL-Bold for Univers-Bold 不确定这是否相关,但第二页已解析并第一个不是。
  3. 文档 3:2019 年 7 月 17 日上午 10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:使用后备字体 NimbusSanL-Regu for Univers。从这个没有解析任何内容。

这些是当前的表格解析设置:

     rows = tabula.read_pdf(filename,
                       pages='all',
                       silent=True,
                       pandas_options={
                           'header': None,
                           'error_bad_lines': False,
                           'warn_bad_lines': False
                       })

是否有其他设置可以解决此特定问题。

4

1 回答 1

0

警告来自 tabula-java 依赖的 PDFBox。不幸的是,问题本身来自 PDF 本身,无法使用 tabula-py 解决。

于 2019-07-27T03:48:14.627 回答