我有一个 html 文件,其中的文本以非 unicode 字体编码。我需要将该文件转换为unicode。我搜索了一个转换器。但是,大多数转换器仅适用于字体列表,而不适用于所有字体。
我的字体非常具体,文字是梵文脚本。我有文件,我有字体,现在,请给我推荐一个工具或技术。谢谢。
我有一个 html 文件,其中的文本以非 unicode 字体编码。我需要将该文件转换为unicode。我搜索了一个转换器。但是,大多数转换器仅适用于字体列表,而不适用于所有字体。
我的字体非常具体,文字是梵文脚本。我有文件,我有字体,现在,请给我推荐一个工具或技术。谢谢。
Unicode 与字体无关,它与编码有关。您需要找到可以将文本转换为 Unicode 的转换器。你的文本编码是什么?
Apache Tika has the ability to pull text from PDF files via knowledge of font behavior. So if the file is in fact a PDF you have a chance. If you have a text file full of font indices in no particular encoding, you have a big programming job ahead of you.