python-3.x - 解析 PDF 时对 Devanagiri 字体的错误解码

翻译自：https://stackoverflow.com/questions/58372241 2019-10-14T07:49:12.990

143 次

我正在使用Camelot解析印度不同州发布的预算文件。解析进行得很好，但梵文（印地语、马拉地语等语言）的解析输出与文档中的不同。输入文件在这个链接上，解析后的输出文件在这个链接上。可以看出，梵文字符与输入文件中的字符不对应。MWE 如下所示。

import camelot
tables = camelot.read_pdf('Demand_ Estimate.pdf', flavor='stream')
tables[0].to_csv('demand_estimate.csv')

0 回答 0