3

在使用 sprintf() 等 C 标准库格式化函数处理包含非 ASCII 字符的 UTF-8 字符串时,我发现了一个有趣的问题:

printf() 系列的函数不知道 utf-8 并根据字节数而不是字符来处理所有内容。因此格式不正确。

简单的例子:

#include <stdio.h>

int main(int argc, char *argv[])
{
    const char* testMsg = "Tääääßt";
    char buf[1024];
    int len;

    sprintf(buf, "|%7.7s|", testMsg);
    len = strlen(buf);
    printf("Result=\"%s\", len=%d", buf, len);

    return 0;
}

结果是:

 Result="|Täää|", len=7

很可能你们中的一些人会建议将应用程序从 char 转换为 wchar_t 并使用 fwprintf() 等,但这是绝对不可能的,因为现有的应用程序很大。我可以想象编写一个在内部使用这些函数的包装器,但这会很棘手而且效率很低。

因此,最好的解决方案是使用可识别 UTF-8 的替代标准 C 库的格式化功能。

目前我正在开发 QNX 6.4,但回复其他操作系统。例如Linux,也很受欢迎。

4

2 回答 2

10

好吧,一旦您要求printf对 Unicode 字符进行智能填充,您就会遇到重大问题。正如他们所说,

w͢͢͝h͡o͢͡k̵͟n̴͘ǫw̸̛s͘w͘͢ḩ̵a҉̡͢a҉̡͢ţ̕h́h́o̵r͏̵er̡

  • 有多少个 Unicode 字符Tääääßt?嗯,它可能是从 7 到 11 的任何地方,这取决于它的编码方式。每个ä都可以写成U+00E4,一个字符,也可以写成U+0061 U+0308,两个字符。所以你的下一个希望是计算字素簇。(不,标准化不会让问题消失。)

  • 但是,一个字形簇有多宽?显然,a是一列宽。U+200B 应该是零列宽,它是一个“零宽度”空间。每个ひらがな应该是两列宽吗?它们通常在终端仿真器中。当您将 ひらがな 格式化为 7 列时会发生什么情况,您会得到"ひらが ",它增加了一个空格,还是得到"ひらが",它只有 6 列?

  • 如果您剪切了混合 RTL 和 LTR 文本的内容,您是否应该在之后重新设置文本方向?你会怎样做?(一些终端仿真器,例如 Apple 的,支持从左到右和从右到左的混合文本。)

  • 截断文本的目的是什么?您是要在有限的空间内向用户显示字符串,还是要编写使用固定宽度字段的格式?

基本上,如果您想将 Unicode 文本切割成块,您不应该使用像printf(或wprintf,这很可能更糟) 这样简单的东西。使用 LibICU(网站)迭代您想要的休息时间。编写一个支持 UTF-8 的版本printf是在自找你不想要的各种麻烦。

于 2012-02-17T09:28:39.060 回答
0

以下 C99 代码片段定义了函数 u8printf,其中格式说明符(例如 %10s)产生 10 个 utf-8 代码点,即字符而不是字节。在调用此例程之前,不要忘记在某处使用 setlocale(LC_ALL,"") 设置语言环境。这是因为 wprintf 在内部使用 wchar_t 。您可以以类似的方式定义 u8fprintf 和 u8sprintf。如果你想在没有 C99 可变长度数组的情况下编写它,那么也可以使用 malloc/free 的合适组合。

int u8printf(char *fmt,...){
    va_list ap;
    va_start(ap,fmt);
        int n=mbstowcs(0,fmt,0);
        if(n==-1) return -1;
        wchar_t wfmt[n+1];
        mbstowcs(wfmt,fmt,n+1);
        for(int m=128;m<=32768;m*=2){
            wchar_t wbuf[m];
            int r=vswprintf(wbuf,m,wfmt,ap);
            if(r!=-1) {
                char buf[m*4];
                wcstombs(buf,wbuf,m*4);
                fputs(buf,stdout);
                return r;
            }
        }
        return -1;
    va_end(ap);
}
于 2014-05-06T19:32:42.267 回答