我解析了 3 个文档以获取表格。结果如下:
- 文档1:完美解析。
- 文档 2:获得 2019 年 7 月 16 日下午 5:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:使用后备字体 NimbusSanL-Bold for Univers-Bold 不确定这是否相关,但第二页已解析并第一个不是。
- 文档 3:2019 年 7 月 17 日上午 10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:使用后备字体 NimbusSanL-Regu for Univers。从这个没有解析任何内容。
这些是当前的表格解析设置:
rows = tabula.read_pdf(filename,
pages='all',
silent=True,
pandas_options={
'header': None,
'error_bad_lines': False,
'warn_bad_lines': False
})
是否有其他设置可以解决此特定问题。