2

当我的程序尝试处理stat()包含特定 UTF-8 字符的文件时,该stat()函数会返回错误。例如,我可以/tmp/surgateDlpMgQure/Özkul Gazete用 vi 打开文件,但传递同一个文件会stat()产生错误。系统区域设置为:

LANG=en_US.UTF-8

LC_CTYPE="en_US.UTF-8"

LC_COLLATE=C

LC_TIME="en_US.UTF-8"

LC_NUMERIC="en_US.UTF-8"

LC_MONETARY="en_US.UTF-8"

LC_MESSAGES="en_US.UTF-8"

LC_ALL=

我应该做些什么stat()来理解 UTF-8 字符吗?

这是代码:

int main ()
{
    struct stat s;
    if (stat("/tmp/surgateDlpMgQure/Özkul Gazete", &s) == -1)
            perror("stat");


    switch (s.st_mode & S_IFMT) {
            case S_IFBLK:  printf("block device\n");            break;
            case S_IFCHR:  printf("character device\n");        break;
            case S_IFDIR:  printf("directory\n");               break;
            case S_IFIFO:  printf("FIFO/pipe\n");               break;
            case S_IFLNK:  printf("symlink\n");                 break;
            case S_IFREG:  printf("regular file\n");            break;
            case S_IFSOCK: printf("socket\n");                  break;
            default:       printf("unknown?\n");                break;
    }

 return 0;
}
4

3 回答 3

0

问题可能是文件名的编码与您在程序内部使用的编码不同。这里的关键问题是谁创建了文件(并给了它这个名字),以及代码中的字符串来自哪里。大多数 Unix 在编码方面是不可知的,只要一些特殊字符,如 '/',具有预期的编码。因此,与您当前的 locale 无关,文件名可以是 Latin-1、Latin-5(只是猜测,但名称看​​起来像土耳其语)或 UTF-8。在 Unix 中几乎没有什么在乎,但必须确保在您的程序中使用与创建文件相同的编码,否则名称将不匹配。(在实践中,我发现最简单的策略是将文件名中的字符限制为一个非常小的集合:ASCII 字母数字字符、数字, '_'可能还有'-'.)

如果您不确定磁盘上文件名的实际编码,您可以使用它ls | od -t x1 -tc来找出其中字节的实际值。如果您Ö是 0xD6,那么编码是 Latin-1 或 Latin-5(它可能不会有太大区别),并且您必须确保您传递的文件名stat(或open,或任何其他函数取一个文件名)以这些编码之一进行编码。相反,如果您有两个字节序列 0xC3、0x96,则文件名是 UTF-8。

如果您确实想支持 ASCII 子集之外的字符,那么我强烈建议您确保所有文件名都以 UTF-8 编码。假设你可以——编码将由创建文件的程序决定,如果它不是你的程序(或者如果你从另一个系统接收文件),你可能无法对它做任何事情。在最坏的情况下,您甚至可能必须使用opendir某种readdir匹配算法来找到实际的文件名(无论采用何种编码)并使用它。

于 2012-08-08T08:40:08.960 回答
0

我认为由于该文件名的名称中有空格而存在问题...

您可以尝试在没有空格的情况下更改该文件名吗

Özkul Gazete  -> Özkul_Gazete

在 linux 上,我通常不在文件名或目录名中使用空格

于 2012-08-08T08:42:09.040 回答
-1

破解它的简单方法:

使用该 Unicode 字符的转义表示:

"/tmp/surgateDlpMgQure/\x00\xF6zkul Gazete"

我没有测试,但它会工作。虽然这不是在 C 中使用 unicode 字符串的方法。

奇怪的是,你的代码在我的系统上工作,但不是我的:)

于 2012-08-08T08:31:30.437 回答