c - 使用 printf 打印 UTF-8 字符串 - 宽与多字节字符串文字

Question

在这样的语句中，两者都以相同的编码（UTF-8）输入到源代码中，并且语言环境设置正确，它们之间有什么实际区别吗？

printf("ο Δικαιοπολις εν αγρω εστιν\n");
printf("%ls", L"ο Δικαιοπολις εν αγρω εστιν\n");

因此，在进行输出时是否有任何理由偏爱其中一个？我想第二个的表现要差一些，但它比多字节文字有什么优势（或劣势）吗？

编辑：这些字符串打印没有问题。但我没有使用宽字符串函数，因为我也希望能够使用printf等。所以问题是这些打印方式有什么不同（鉴于上述情况），如果是这样，第二种方式有什么优势吗？

EDIT2：根据下面的评论，我现在知道这个程序可以工作——我认为这是不可能的：

int main()
{
    setlocale(LC_ALL, "");
    wprintf(L"ο Δικαιοπολις εν αγρω εστιν\n");  // wide output
    freopen(NULL, "w", stdout);                 // lets me switch
    printf("ο Δικαιοπολις εν αγρω εστιν\n");    // byte output
}

EDIT3：我通过查看这两种类型的情况做了一些进一步的研究。取一个更简单的字符串：

wchar_t *wides = L"£100 π";
char *mbs = "£100 π";

编译器正在生成不同的代码。宽字符串是：

.string "\243"
.string ""
.string ""
.string "1"
.string ""
.string ""
.string "0"
.string ""
.string ""
.string "0"
.string ""
.string ""
.string " "
.string ""
.string ""
.string "\300\003"
.string ""
.string ""
.string ""
.string ""
.string ""

而第二个是：

.string "\302\243100 \317\200"

看看 Unicode 编码，第二种是纯 UTF-8。宽字符表示是 UTF-32。我意识到这将取决于实现。

那么也许文字的宽字符表示更便携？我的系统不会直接打印 UTF-16/UTF-32 编码，所以会自动转换为 UTF-8 输出。

score 29 · Accepted Answer

printf("ο Δικαιοπολις εν αγρω εστιν\n");

打印字符串文字（const char*，特殊字符表示为多字节字符）。尽管您可能会看到正确的输出，但在处理此类非 ASCII 字符时可能还会遇到其他问题。例如：

char str[] = "αγρω";
printf("%d %d\n", sizeof(str), strlen(str));

输出9 8，因为这些特殊字符中的每一个都由 2 chars 表示。

使用L前缀时，您拥有由宽字符 ( const wchar_t*) 和%ls格式说明符组成的文字，导致这些宽字符转换为多字节字符(UTF-8)。请注意，在这种情况下，应适当设置语言环境，否则此转换可能会导致输出无效：

#include <stdio.h>
#include <wchar.h>
#include <locale.h>

int main(void)
{
    setlocale(LC_ALL, "");
    printf("%ls", L"ο Δικαιοπολις εν αγρω εστιν");
    return 0;
}

但是，当使用宽字符时，有些事情可能会变得更加复杂，而其他事情可能会变得更简单、更直接。例如：

wchar_t str[] = L"αγρω";
printf("%d %d", sizeof(str) / sizeof(wchar_t), wcslen(str));

5 4将按自然预期的方式输出。

一旦决定使用宽字符串，wprintf就可以直接打印宽字符。这里还值得注意的是，在 Windows 控制台的情况下，stdout应通过调用将的翻译模式显式设置为 Unicode 模式之一_setmode：

#include <stdio.h>
#include <wchar.h>

#include <io.h>
#include <fcntl.h>
#ifndef _O_U16TEXT
  #define _O_U16TEXT 0x20000
#endif

int main()
{
    _setmode(_fileno(stdout), _O_U16TEXT);
    wprintf(L"%s\n", L"ο Δικαιοπολις εν αγρω εστιν");
    return 0;
}

c - 使用 printf 打印 UTF-8 字符串 - 宽与多字节字符串文字

1 回答 1

Related

Reference