我正在使用 Camelot 和 tabula 来解析带有西里尔符号的 pdf 文件。但是在输出的 CSV 文件中,我得到了没有俄语符号的混乱字体。
什么可以帮助我解析非英语语言的 pdf 表?
import camelot
file = 'file-name.pdf'
tables = camelot.read_pdf(file, pages = "1-end", encoding='utf-8')
输出: 0055529-1295-06-UT。 ГЧЧ45
我正在使用 Camelot 和 tabula 来解析带有西里尔符号的 pdf 文件。但是在输出的 CSV 文件中,我得到了没有俄语符号的混乱字体。
什么可以帮助我解析非英语语言的 pdf 表?
import camelot
file = 'file-name.pdf'
tables = camelot.read_pdf(file, pages = "1-end", encoding='utf-8')
输出: 0055529-1295-06-UT。 ГЧЧ45