c++ - 使用非 ASCII 字符反转字符串

Question

我想用这样的特殊字符更改字符串中的顺序：

ZAŻÓŁĆ GĘŚLĄ JAŹŃ

至

ŃŹAJ ĄŁŚĘG ĆŁÓŻAZ

我尝试使用 std::reverse

std::string text("ZAŻÓŁĆ GĘŚLĄ JAŹŃ!");
std::cout << text << std::endl;
std::reverse(text.rbegin(), text.rend());
std::cout << text << std::endl;

但输出告诉我：

ZAŻÓŁĆ GĘŚLĄ JAŃ！

!\203Ź\305AJ \204\304L\232Ř\304G \206āœû\305AZ <- 反转字符串

所以我尝试“手动”执行此操作：

std::string text1("ZAŻÓŁĆ GĘŚLĄ JAŹŃ!");
std::cout << text1 << std::endl;
int count = (int) floorf(text1.size() /2.f);
std::cout << count  << "  " << text1.size() << std::endl;

unsigned int maxIndex = text1.size() - 1;
for (int i = 0; i < count ; i++)
{
    char tmp = text1[i];
    text1[i] = text1[maxIndex];
    text1[maxIndex] = tmp;
    maxIndex--;
}
std::cout << text1 << std::endl;

但在这种情况下，我在 text1.size() 中遇到了问题，因为每个特殊字符都被计算了两次：

ZAŻÓŁĆ GĘŚLĄ JAŃ！

13 27 <- 第二个数字是 text1.size()

!\203Ź\305AJ \204\304L\232Ř\304G \206āœû\305AZ

如何用特殊字符反转字符串的正确方法？

score 1 · Accepted Answer

您的代码确实正确地反转了字符串中的字节，这里没有错。然而，问题在于您的编译器存储了您的文字字符串“ZAŻÓŁĆ GĘŚLĄ JAŹŃ！” 在 UTF-8 编码中。

并且 UTF-8 将除匹配 ASCII 的字符之外的所有字符存储为可变长度的字节序列。这意味着一个char（一个字节）不再是一个字符，因此反转char's 现在与反转字符不同。

为了实现您的目标，您至少有两种选择：

使用一些 utf-8 库，它可以让你迭代字符而不是字节。一个例子是http://utfcpp.sourceforge.net/
不知何故（这在很大程度上取决于您使用的编译器和操作系统）切换到 utf-32 编码，该编码具有恒定的字符长度和良好的旧的恒定字符大小字符串，而没有所有这些疯狂的可变字符大小麻烦。

UPD：一个不错的链接：http ://www.joelonsoftware.com/articles/Unicode.html

score 0 · Accepted Answer

这里有几个问题。答案很复杂，可能完全取决于您要做什么。

首先是（正如其他答案所述）如果您的字符串是 UTF-8 编码的，则一个 Unicode 代码点可能包含多个字节。如果您只是反转字节，您将破坏 UTF-8 编码。最简单（尽管不一定是最好的）解决方法是将字符串转换为 UTF-32 并反转 32 位代码点而不是字节。

下一个问题是单个字素可能包含多个 Unicode 代码点。例如，“é”可能被编码为两个代码点 U+0065，后跟 U+0301。如果您颠倒这些顺序，则会破坏它，因为组合字符 U+301 现在将与不同的基本字符相关联。因此，以这种方式反转的“神奇宝贝”将变成“noḿekoP”，重音在“m”而不是“e”上。

现在您可能认为可以通过首先将字符串规范化为组合形式来解决此问题。然而，这有其自身的问题，因为并非每个字素都可以由单个代码点表示。例如，加拿大国旗 emoji () 由代码点 U+1F1E8 后跟代码点 U+1F1E6 表示。它没有单一的代码点。如果你反转它的代码点，你会得到 Ascension Island () 的标志。

然后，您的语言中的字符会根据上下文改变形式，而我对处理这些语言还不太了解。

它可能更接近您想要反转字素簇的内容。请参阅UAX29：Unicode 文本分段。

score 0 · Accepted Answer

您可以自己编写一个 reverseUt8 函数：

std::string getMultiByteReversed(char ch1, char ch2)
{  
   if (ch == '\xc3') // most utf8 characters
      return std::string(ch1)+ std::string(ch2);
   } else {
      return std::string(ch1);
   }
}

std::string reverseMultiByteString(const std::string &s)
{
    std::string result;
    for (std::string::reverse_iterator it = s.rbegin(); it != s.rend(); ++it) {
       std::string reversed;
       if ( (it+1) != rbegin() && (reversed = getMultiByteReversed(*it, *it+1) ) {
          result += reversed;
          ++it;
       } else {
          result += *it;
       }
  }
  return result;
}

您可以在以下位置查找 utf8 代码：http ://www.utf8-chartable.de/

score -4 · Accepted Answer

您是否尝试过一一交换字符。例如，如果字符串长度是奇数，则将第一个字符与最后一个字符交换，将第二个字符与最后一个字符交换，直到剩下中间字符。如果字符串长度为偶数，则将第一个与最后一个交换，将第二个与最后一个交换，直到两个中间字符都交换。这样，字符串将被反转。

c++ - 使用非 ASCII 字符反转字符串

4 回答 4

Related

Reference