2

我正在做一个需要将 PDF 转换为文本的项目。PDF 包含印地语字体(具体为 Mangal)和英语。

100% 的英语被转换成文本。印地语部分的转换率约为 95%。剩余的 5% 印地语文本要么以空白形式出现,要么像“ा”一样。我可以弄清楚重音字符没有正确转换为文本。

我正在使用以下代码:

pdftotext -enc UTF-8 pdfname.pdf textname.txt

PDF 使用以下字体

名称、类型、emb、sub、uni

ZDPKEY+Mangal,CID TrueType,是的,是的,是的

Mangal TrueType,不,不,不

Helvetica-Bold Type 1,不,不,不

CODUBM+Mangal-Bold,CID TrueType,是的,是的,是的

Mangal-Bold,TrueType,不,不,不

Times-Roman, Type 1 no, no, no

Helvetica,类型 1,不,不,不

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本:

http://preview.tinyurl.com/qbxud9o

我的问题是 5% 的缺失/垃圾字符是否可以用开源包在 Text 中正确捕获?非常感谢您的投入!

4

1 回答 1

3

Change your code to.

pdftotext -enc "UTF-8" pdfname.pdf textname.txt

It has worked for me, similarly it should work for you.

于 2018-04-11T09:11:13.503 回答