c - 用纯 C 打开一个 Unicode 文件

Question

我正在尝试打开一个全中文的 .txt 文件。即使流是 100% Unicode，我是否可以使用正常的 fopen/fclose 程序，或者是否有任何专用工具来处理宽字符？我将不胜感激准确的答案，我是初学者程序员。我正在使用带有标准 gcc 的 Linux。

我将附上我的代码，它编译时没有错误，但在执行时出现分段错误。我不知道它有什么问题。这个程序的重点是复制每一个中文符号串，其中要找到给定集合中的特定符号，并将其写入单独的文件中。

#include<stdio.h>
#include<stdlib.h>
#include<wchar.h>
#include <locale.h>
#define PLIK_IN in /*filenames*/
#define PLIK_OUT out
#define LKON 49 /*specifying the length of a string on the left from a desired sign*/
#define PKON 50 /*...and on the right*/
int wczytaj_pliki(FILE*, FILE*); /*open file*/
void krocz_po_pliku(FILE*, FILE*); /*search through file*/
int slownik(wchar_t); /*compare signs*/
void zapisz_pliki(FILE*, FILE*); /*write to file*/

void main(void)
{
    FILE *bin,*bout;
    setlocale(LC_CTYPE, "");

    wczytaj_pliki(bin, bout);
    krocz_po_pliku(bin, bout);
    zapisz_pliki(bin, bout);
}/*main*/

int slownik(wchar_t znak) /*compare characters*/
{
    wchar_t gznak1 = L'股', gznak2 = L'利', gznak3 = L'红';
    if ( ( znak == gznak1) || (znak == gznak2) || (znak == gznak3) ) return 1;
    return 0;
}/*slownik*/

void krocz_po_pliku(FILE* bin, FILE* bout) /*search through file*/
{
    wchar_t wch;
    wchar_t* kontekst;
    int i = 0, j, step = LKON, counter = 0, token = 0;

    while ( (wch = getwchar() ) != EOF )
    {
        if (!token) /*comparing consecutive signs*/
    {
        if ( slownik(wch) == 1 )
        {
            counter++;
            fprintf(bout,"###Wystapienie %d.\n\n", counter);
            if ( i<step ) step = i;
            fseek(bin,-step,1);
            j=0, token = 1;
        }/*if*/
        else i++;
    }/*if*/
    else /*writing consecutive signs within context*/
    {
        if ( j < LKON + PKON)
        {
            putwc(wch, bout);
            j++;
        }/*if*/
        else
        {
            fprintf(bout,"###\n\n");
            fflush(bout);
            token = 0;
        }/*else*/
    }/*else*/
    }/*while*/
        printf("Znalazlem %d wystapien\n", counter);
}/*krocz_po_pliku*/

int wczytaj_pliki(FILE* bin, FILE* bout)
{
    bin=fopen("PLIK_IN","r");
    bout=fopen("PLIK_OUT","w");
    rewind(bin);
    if(bin==NULL || bout==NULL)
{
    printf("Blad plikow\n");
    exit(0);
}/*if*/
    return 1;
}/*wczytaj pliki*/

void zapisz_pliki(FILE* bin, FILE* bout)
{
fclose(bin);
fclose(bout);
}

score 3 · Accepted Answer

是的，fopen 可以打开包含任何数据的文件，包括 Unicode 数据，只要您可以用 char* 表示文件名。（在某些平台上，即 Windows，文件可能具有无法用 char* 表示的名称）。

您将希望以二进制模式打开文件，以防止可能进行的任何新行替换（除非 Unicode 编码是 UTF-8 然后没关系），因为替换将以字符形式完成。此外，如果代码单元超过一个字节，则需要确保以正确的字节序读取它们。

请注意，wchar_t 不一定是 Unicode，对于文件使用的任何 Unicode 编码，它可能不是正确的类型。如果您的程序支持多种 Unicode 编码，请不要使用 BOM 来猜测文件使用哪种编码。

score 1 · Accepted Answer

您的问题可能是由以下事实引起的，即您

#define PLIK_IN in /*filenames*/

进而

bin=fopen("PLIK_IN","r");

您的程序试图打开一个名为PLIK_IN而不是一个名为in. 如果PLIK_IN不存在，则fopen 返回 0。传递0给rewind会导致你的可执行文件死掉。

如果你想打开in，你应该

#define PLIK_IN "in" /*filenames*/
/* ... */
bin=fopen(PLIK_IN,"r");

也一样PLIK_OUT。

最后但并非最不重要的一点，记得用英语编码。这是我们业务中的通用语，使用它可以显着增加可以帮助您的人数:)

c - 用纯 C 打开一个 Unicode 文件

2 回答 2

Related

Reference