unix - PDFtoTEXT 未完全转换 UTF-8 编码文本，尤其是重音字符

Question

我正在做一个需要将 PDF 转换为文本的项目。PDF 包含印地语字体（具体为 Mangal）和英语。

100% 的英语被转换成文本。印地语部分的转换率约为 95%。剩余的 5% 印地语文本要么以空白形式出现，要么像“ा”一样。我可以弄清楚重音字符没有正确转换为文本。

我正在使用以下代码：

pdftotext -enc UTF-8 pdfname.pdf textname.txt

PDF 使用以下字体

名称、类型、emb、sub、uni

ZDPKEY+Mangal，CID TrueType，是的，是的，是的

Mangal TrueType，不，不，不

Helvetica-Bold Type 1，不，不，不

CODUBM+Mangal-Bold，CID TrueType，是的，是的，是的

Mangal-Bold，TrueType，不，不，不

Times-Roman, Type 1 no, no, no

Helvetica，类型 1，不，不，不

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文本：

http://preview.tinyurl.com/qbxud9o

我的问题是 5% 的缺失/垃圾字符是否可以用开源包在 Text 中正确捕获？非常感谢您的投入！

score 3 · Accepted Answer

Change your code to.

pdftotext -enc "UTF-8" pdfname.pdf textname.txt

It has worked for me, similarly it should work for you.

1 回答 1