2

我使用几个不同的程序将 pdf 文件转换为 txt 文件。通常,这会产生好看的文本。有时,它不会。我有一组以下列方式转换的文件:

我可以阅读的文本:您的帐户摘要

复制,粘贴到记事本++: 复制粘贴到NotepadPlusPlus

Ghostscript:似乎是一个垃圾文件。充满xEF,xBF字符。

xPdf: 给了我一个文件,里面有这样的东西:Ç+6 3 É+C ÌÍÍÌ; ÆÁÅ ÅAÁ

似乎复制粘贴方法最接近英语,因为这些字符中的每一个似乎都代表一个字母字符。SO == Y,SI == o,STX == u,等等。

我想将这些 pdf 文件转换为英文文本。

4

1 回答 1

1

通常,Unicode 符号看起来像

xEF, xBF

. 您需要从 Unicode 到用户友好字母的额外转换。

于 2013-09-11T03:13:04.217 回答