0

我想将 QStrings 转换为文件名。由于我希望文件名看起来干净,我想用下划线替换所有非字母和非数字。下面的代码应该做到这一点。

#include <iostream>
#include <QString>

QString makeFilename(const QString& title)
{
    QString result;
    for(QString::const_iterator itr = title.begin(); itr != title.end(); itr++)
     result.push_back(itr->isLetterOrNumber()?itr->toLower():'_');
    return result;
}

int main()
{
    QString str = "§";
    std::cout << makeFilename(str).toAscii().data() << std::endl;
}

但是,在我的计算机上,这不起作用,我得到一个输出:

�_

寻找解释,调试告诉我QString("§").size()= 2 > 1 = QString("a").size()

我的问题:

  • 为什么 QString 使用 2 个 QChars 表示“§”?(已解决
  • 你有解决方案makeFilename吗?对中国人也有用吗?
4

2 回答 2

1

除了其他人所说的之外,请记住 aQString是 UTF-16 编码的字符串。BMP 之外的 Unicode 字符需要 2 个QChar值一起工作,称为代理对,以便对该字符进行编码。QString 文档说了这么多:

代码值高于 65535 的 Unicode 字符使用代理对存储,即两个连续的 QChar。

循环时您没有考虑到这一点QString。您正在单独查看每个QChar,而不检查它是否属于代理对。

试试这个:

QString makeFilename(const QString& title) 
{ 
    QString result; 

    QString::const_iterator itr = title.begin();
    QString::const_iterator end = title.end();

    while (itr != end)
    {
        if (!itr->isHighSurrogate())
        {
            if (itr->isLetterOrNumber())
            {
                result.push_back(itr->toLower()); 
                ++itr;
                continue;
            }
        }
        else
        {
            ++itr;
            if (itr == end)
                break; // error - missing low surrogate

            if (!itr->isLowSurrogate())
                break; // error - not a low surrogate

            /*
            letters/numbers should not need to be surrogated,
            but if you want to check for that then you can use
            QChar::surrogateToUcs4() and QChar::category() to
            check if the surrogate pair represents a Unicode
            letter/number codepoint...

            uint ch = QChar::surrogateToUcs4(*(itr-1), *itr);
            QChar::Category cat = QChar::category(ch);
            if (
                ((cat >= QChar::Number_DecimalDigit) && (cat <= QChar::Number_Other)) ||
                ((cat >= QChar::Letter_Uppercase) && (cat <= QChar::Letter_Other))
                )
            {
                result.push_back(QChar(ch).toLower()); 
                ++itr;
                continue;
            }
            */
        }

        result.push_back('_');
        ++itr; 
    }

    return result; 
} 
于 2012-10-03T21:24:33.717 回答
1

好的,这是我的理论:当您将“§”文字提供给 QString 时,Qt 使用一些默认编码,因为您没有设置一个。如果您的编译器使用 UTF-8 存储字符串文字,您可能会输入 2 个字节,这些字节将转换为 2 个字符而不是 1 个字符。同样,您的“toAscii”输出也很可能做错事。

从外观上看,您必须找出编译器用于存储字符串文字的内容,并使用正确的值调用setCodecForCStrings 。

编辑:根据您的描述,如果我不知道编译器的编码,我可能会首先尝试 QTextCodec::codecForName("UTF-8") 作为 setCodec 的参数:-)

于 2012-10-03T15:35:17.247 回答