c++ - 如何在 C++ 中读取 WCP-1252 字符？

Question

我做了一些谷歌搜索，但找不到明确的答案（也许没有使用正确的术语？）

无论如何，我有一些 ANSI 格式 (WCP-1252) 的文本文件，我想在 C++ 程序中处理其字符，但问题是我不知道如何存储对应于十进制代码 128 到到 255。不过，为了确定，我尝试了以下代码：

ifstream infile("textfile.txt");
char c;
infile>>c;                           //also tried infile.get(c);  
cout<<c;

不出所料，1-byte char 未能存储 0x7F 之后扩展集中的任何符号（我认为它只是显示了与第一个字节的值相对应的 ASCII 符号并丢弃了第二个或反之亦然）。

score 0 · Accepted Answer

WCP-1252 以 8 位表示，但某些字符不是 ASCII 的一部分。我建议你写一个从 WCP-1252 到 wchar_t 的转换表。逐字符读取字符并转换为 wchar_t。你可以写一个map<uint8_t, wchar_t>。例如：

wchar_t WCP1252Towc( char ch )
{
    static map< char, wchar_t > table
    {

        {0x30, L'0' },
        {0x31, L'1' },
        // ..
        {0x39, L'9'},

        {0x40, L'A'},
        // ...
        {0x5A, L'Z'},

        {0x61, L'a'},
        // ...
        {0x7A, L'z'},

        // ...
    };

    return table[ ch ]; 
};  

wstring WCP1252sTowcs( string str )
{
    const auto len = str.size();
    wstring res( len, L'\0' );

    for( size_t i = 0; i < len; ++i )
        res[ i ] = WCP1252Towc( str[ i ] );

    return res;
}

ifstream infile("textfile.txt");
string line; getline( infile, line );
auto unicode = WCP1252sTowcs( line );
wcout << unicode;

c++ - 如何在 C++ 中读取 WCP-1252 字符？

1 回答 1

Related

Reference