我在 Windows 7 32 位。当我解析俄语文本 PDF 时,我收到带有 ??? 的结果文件 而不是俄语字符。开发人员通过此修复解决了此问题
我有 ?在 Windows 上带有结果的字符。我怎样才能避免它?如果 PDF 的编码是 UTF-8,您应该在启动 Python 进程之前在终端上设置 chcp 65001。
chcp 65001
我在 windows cmd 中更改了它,但没有结果。
我的代码
import tabula
tabula.convert_into(r"C:\Code\Active\kartoteka\misc\ExampleExtract.pdf", r"C:\Code\Active\kartoteka\misc\output.csv", output_format="csv",pages = "all",java_options="-Dfile.encoding=utl-8")
错误日志:
?? 10, 2018 11:15:18 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2Font getawtFont
INFO: Can't read the embedded font Times-Roman
??? 10, 2018 11:15:18 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2Font getawtFont
INFO: Using font Times New Roman instead
??? 10, 2018 11:15:19 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2Font getawtFont
INFO: Can't read the embedded font Times-Roman
??? 10, 2018 11:15:19 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2Font getawtFont
INFO: Using font Times New Roman instead
我生成的文件仍然显示所有俄语字符 ??????? 你如何解决这个问题?