我有一堆不同编码的文本文件。但我想将所有的转换成 utf-8。由于大约有 1000 个文件,我无法手动完成。我知道 llinux 中有一些命令可以将文件的编码从一种编码更改为另一种编码。但我的问题是如何自动检测文件的当前编码?显然我正在寻找一个命令(比如 FindEncoding($File) )来做到这一点:
foreach file
do
$encoding=FindEncoding($File);
uconv -f $encoding -t utf-8 $file;
done
我通常这样做:
for f in *.txt; do
encoding=$(file -i "$f" | sed "s/.*charset=\(.*\)$/\1/")
recode $encoding..utf-8 "$f"
done
请注意,重新编码将覆盖文件以更改字符编码。如果无法通过扩展名识别文本文件,则可以使用 确定它们各自的 mime 类型file -bi | cut -d ';' -f 1
。
通过首先检查 UFT-8 来避免不必要的重新编码可能也是一个好主意:
if [ ! "$encoding" = "utf-8" ]; then
#encode
经过这种处理后,可能仍然有一些带有us-ascii
编码的文件。原因是 ASCII 是 UTF-8 的一个子集,除非引入任何 ASCII 无法表达的字符,否则它仍然在使用。在这种情况下,编码切换为 UTF-8。