1

目前我正在尝试逐字符读取 UTF-16 编码的 CSV 文件,并将每个字符转换为 ascii,以便我可以处理它。我稍后计划将处理后的数据改回 UTF-16,但这不是重点。

我马上就知道我做错了,因为我以前从未尝试过这样的事情:

int main(void)
{
    FILE *fp;
    int ch;
    if(!(fp = fopen("x.csv", "r"))) return 1;
    while(ch != EOF)
    {
        ch = fgetc(fp);
                ch = (wchar_t) ch;
                ch = (char) ch;
        printf("%c", ch);
    }
    fclose(fp);
    return 0;
}

一厢情愿地想着,我希望出于某种原因能通过魔法发挥作用,但事实并非如此。如何读取 UTF-16 CSV 文件并将其转换为 ascii?我的猜测是,因为每个 utf-16 字符都是两个字节(我认为?)我将不得不一次从文件中读取两个字节到某个我不确定的数据类型的变量中。然后我想我将不得不检查这个变量的位以确保它是有效的 ascii 并从那里转换它?我不知道我会怎么做,任何帮助都会很棒。

4

2 回答 2

4

你应该使用fgetwc. 下面的代码应该在存在byte-order mark和可用的 locale的情况下工作en_US.UTF-16

#include <stdio.h>
#include <wchar.h>
#include <locale.h>

main() {
  setlocale(LC_ALL, "en_US.UTF-16"); 

  FILE *fp = fopen("x.csv", "rb");
  if (fp) {
    int order = fgetc(fp) == 0xFE;
    order = fgetc(fp) == 0xFF;

    wint_t ch;
    while ((ch = fgetwc(fp)) != WEOF) {
      putchar(order ? ch >> 8 : ch);
    }
    putchar('\n');

    fclose(fp);
    return 0;
  } else {
    perror("opening x.csv");
    return 1;
  }
}
于 2012-08-25T22:39:00.367 回答
0

由于我原来的问题下的评论,这是我的解决方案。由于 CSV 文件中的每个字符都是有效的 ascii,因此解决方案很简单:

int main(void)
{
    FILE *fp;
    int ch, i = 1;
    if(!(fp = fopen("x.csv", "r"))) return 1;
    while(ch != EOF)
    {
        ch = fgetc(fp);
        if(i % 2) //ch is valid ascii
        i++;
    }
    fclose(fp);

    return 0;
}
于 2012-08-25T21:29:25.337 回答