1

我有几个文本文件,里面全是这样的句子:“Mais, tu n'as pas fait tes devoirs ?!” -\u00c9l\u00e8ve:“本非”

有没有一种快速的方法(脚本或实用程序)可以恢复 utf8 格式的所有变音符号?(预期结果:Élève:“Ben non”)

我可以使用 sed 手动完成,但由于我的文本文件包含几种语言特有的变音符号,这将花费太多时间。

非常感谢

4

2 回答 2

1

我找到了...

python -c "print (open('filetoconvert.txt','rb').read().decode('unicode-escape').encode('utf-8'))"
于 2012-06-30T18:53:13.073 回答
0

如果您安装了 Java JDK,则会调用一个实用程序native2ascii来将文件与 unicode 转义符进行转换。例如:

native2ascii -reverse filetoconvert.txt > converted.txt
于 2012-07-02T09:29:18.520 回答