17

我正在为一个使用文件作为参数的应用程序编写一个小包装器。

包装器需要使用 Unicode,所以我使用 wchar_t 来处理我拥有的字符和字符串。现在我发现自己遇到了一个问题,我需要将程序的参数放在 wchar_t 数组和 wchar_t 字符串中。

可能吗?我将main函数定义为

int main(int argc, char *argv[])

我应该使用 wchar_targv吗?

非常感谢,我似乎没有找到有关如何在 C 中正确使用 Unicode 的有用信息。

4

6 回答 6

13

可移植代码不支持它。Windows(例如)支持使用wmain而不是main,在这种情况下 argv 作为宽字符传递。

于 2009-11-03T00:04:38.757 回答
12

一般来说,没有。这将取决于操作系统,但 C 标准规定 'main()' 的参数必须是 'main(int argc, char **argv)' 或等价物,所以除非 char 和 wchar_t 是相同的基本类型,你做不到。

话虽如此,您可以将 UTF-8 参数字符串放入程序中,将它们转换为 UTF-16 或 UTF-32,然后继续生活。

在 Mac(10.5.8,Leopard)上,我得到:

Osiris JL: echo "ï€" | odx
0x0000: C3 AF E2 82 AC 0A                                 ......
0x0006:
Osiris JL: 

这都是 UTF-8 编码的。(odx 是一个十六进制转储程序)。

另请参阅:为什么在与 UNIX/Linux 环境交互时使用 UTF-8 编码

于 2009-11-03T00:05:10.970 回答
9

在 Windows 上,您可以使用GetCommandLineW()andCommandLineToArgvW()来生成 argv 样式的wchar_t[]数组,即使应用程序不是针对 Unicode 编译的。

于 2012-07-07T22:32:29.583 回答
4

无论如何,在 Windows 上,您都可以使用wmain()UNICODE 构建。虽然不便携。我不知道 GCC 或 Unix/Linux 平台是否提供类似的东西。

于 2009-11-03T00:03:48.747 回答
3

假设您的 Linux 环境使用 UTF-8 编码,那么以下代码将使您的程序准备好在 C++ 中轻松进行 Unicode 处理:

    int main(int argc, char * argv[]) {
      std::setlocale(LC_CTYPE, "");
      // ...
    }

其次,在 Linux 中 wchar_t 类型是 32 位的,这意味着它可以保存单独的 Unicode 代码点,并且您可以安全地使用 wstring 类型在 C++ 中进行经典字符串处理(逐个字符)。使用上面的 setlocale 调用,插入到 wcout 将自动将您的输出转换为 UTF-8,从 wcin 中提取将自动将 UTF-8 输入转换为 UTF-32(1 个字符 = 1 个代码点)。剩下的唯一问题是 argv[i] 字符串仍然是 UTF-8 编码的。

您可以使用以下函数将 UTF-8 解码为 UTF-32。如果输入字符串损坏,它将返回正确转换的字符,直到 UTF-8 规则被破坏的地方。如果您需要更多错误报告,您可以改进它。但是对于 argv 数据,可以安全地假设它是正确的 UTF-8:

#define ARR_LEN(x) (sizeof(x)/sizeof(x[0]))

    wstring Convert(const char * s) {
        typedef unsigned char byte;
        struct Level { 
            byte Head, Data, Null; 
            Level(byte h, byte d) {
                Head = h; // the head shifted to the right
                Data = d; // number of data bits
                Null = h << d; // encoded byte with zero data bits
            }
            bool encoded(byte b) { return b>>Data == Head; }
        }; // struct Level
        Level lev[] = { 
            Level(2, 6),
            Level(6, 5), 
            Level(14, 4), 
            Level(30, 3), 
            Level(62, 2), 
            Level(126, 1)
        };

        wchar_t wc = 0;
        const char * p = s;
        wstring result;
        while (*p != 0) {
            byte b = *p++;
            if (b>>7 == 0) { // deal with ASCII
                wc = b;
                result.push_back(wc);
                continue;
            } // ASCII
            bool found = false;
            for (int i = 1; i < ARR_LEN(lev); ++i) {
                if (lev[i].encoded(b)) {
                    wc = b ^ lev[i].Null; // remove the head
                    wc <<= lev[0].Data * i;
                    for (int j = i; j > 0; --j) { // trailing bytes
                        if (*p == 0) return result; // unexpected
                        b = *p++;   
                        if (!lev[0].encoded(b)) // encoding corrupted
                            return result;
                        wchar_t tmp = b ^ lev[0].Null;
                        wc |= tmp << lev[0].Data*(j-1);
                    } // trailing bytes
                    result.push_back(wc);
                    found = true;
                    break;
                } // lev[i]
            }   // for lev
            if (!found) return result; // encoding incorrect
        }   // while
        return result;
    }   // wstring Convert
于 2012-07-07T11:50:59.137 回答
2

在 Windows 上,您可以使用 tchar.h 和 _tmain,如果在编译时定义了 _UNICODE 符号,则它们将转换为 wmain,否则将转换为 main。如果定义了 unicode,则 TCHAR *argv[] 将类似地扩展为 WCHAR * argv[],否则将扩展为 char * argv[]。

如果你想让你的 main 方法跨平台工作,你可以定义自己的宏来达到同样的效果。

TCHAR.h 包含许多方便的宏,用于在 wchar 和 char 之间进行转换。

于 2009-11-03T00:47:19.200 回答