我使用几个不同的程序将 pdf 文件转换为 txt 文件。通常,这会产生好看的文本。有时,它不会。我有一组以下列方式转换的文件:
我可以阅读的文本:您的帐户摘要
复制,粘贴到记事本++:
Ghostscript:似乎是一个垃圾文件。充满xEF
,xBF
字符。
xPdf: 给了我一个文件,里面有这样的东西:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ
似乎复制粘贴方法最接近英语,因为这些字符中的每一个似乎都代表一个字母字符。SO == Y,SI == o,STX == u,等等。
我想将这些 pdf 文件转换为英文文本。