PDF 文件内容为中文(字符,不是图片等),因此可能使用不同的字体。我的代码:
>>> import tabula
>>> df = tabula.read_pdf('/data/proj/smartinvestment/cninfo_download_reports/pdf/601101/2016-12-29/1202969937.PDF', pages='all')
错误:
Feb 02, 2018 6:44:34 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 <init>
INFO: OpenType Layout tables used in font ABCDEE+ËÎÌå are not implemented in PDFBox and will be ignored
最终的 DataFrame 是空的。
我无法从 stackoverflow 中找到任何想法。我该如何解决这个问题?我应该导入一些字体还是有其他原因导致此错误?