我正在做一个需要将 PDF 转换为文本的项目。PDF 包含印地语字体(具体为 Mangal)和英语。
100% 的英语被转换成文本。印地语部分的转换率约为 95%。剩余的 5% 印地语文本要么以空白形式出现,要么像“ा”一样。我可以弄清楚重音字符没有正确转换为文本。
我正在使用以下代码:
pdftotext -enc UTF-8 pdfname.pdf textname.txt
PDF 使用以下字体
名称、类型、emb、sub、uni
ZDPKEY+Mangal,CID TrueType,是的,是的,是的
Mangal TrueType,不,不,不
Helvetica-Bold Type 1,不,不,不
CODUBM+Mangal-Bold,CID TrueType,是的,是的,是的
Mangal-Bold,TrueType,不,不,不
Times-Roman, Type 1 no, no, no
Helvetica,类型 1,不,不,不
以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本:
http://preview.tinyurl.com/qbxud9o
我的问题是 5% 的缺失/垃圾字符是否可以用开源包在 Text 中正确捕获?非常感谢您的投入!