-2

我有一个以 UTF-8 编码的非常大的文本文件(~150 MB)。文本内容包含 UTF-8 可读字符和实体编号。

当通过文本编辑器(TextWrangler、NotePad++...)显示时,文本内容如下:

zygoma  <B><FONT SIZE='+1'>zygoma</FONT></B>/z&#652;&#618;/ (g&#601;&#650;m&#601;)</FONT>

当 Web 浏览器读取此文本文件时,内容正确显示为:

  • 颧骨zygoma /zʌɪ/ (gəʊmə)

我希望将所有 UTF-8 数字(如g&#601;&#650;m&#601;)转换为可读字符(如gəʊmə),以便在由文本编辑器打开时,文本文件将如下所示:

zygoma  <B><FONT SIZE='+1'>zygoma</FONT></B>/zʌɪ/ (gəʊmə)</FONT>

我曾尝试使用 TextWrangler 和 Notepad++ 提供的编码工具......但没有运气。(有一些在线工具可以完成这项任务,但我的文本文件对他们来说太大了)。

我想知道是否有工具或方法可以将这些 UTF-8 数字转换为等效的可读字符。

你能帮忙吗?谢谢你。

4

2 回答 2

2

EditPad Pro可以做到这一点:

屏幕截图预转换

使用Convert-&#65535; and &#xFFFF; -> Character命令(并假设当前文件设置为 UTF-8 并且您使用的字体包含所需的字形),您会得到

转换后截图

当你保存它时,你会得到一个正确的 UTF-8 编码文件,有或没有 BOM,你可以选择。


免责声明:我是 EPP 德文版的翻译(但我是免费的,因为这个编辑器很棒)。

于 2013-10-05T10:13:07.800 回答
1

你可以试试这个http://www.artlebedev.ru/tools/decoder/工具(俄罗斯语言)。

翻译版本:http ://bit.ly/15O0eQW(英文)

更新:

试试这个脚本https://gist.github.com/Funfun/6839052

于 2013-10-05T09:51:07.573 回答