unicode - toEscapedUnicode 方法生成的 Unicode 没有空格

Question

对于这个词 चौरेउत्तमयादव Unicode 是==> \u0938\u0941\u0916\u091A\u0948\u0928\u093E\u0928\u0940 \u0930\u0940\u091D\u0941\u092E\u0932 \u091C\u093F\u0935\u0924\u0930\u093E\u092E

\u0930看看它前面有空格\u091C

但是当我尝试我的代码时

String tempString=Strings.toEscapedUnicode(strString);

这种转换为 Unicode 的方法给出了没有空格的结果： \u0938\u0941\u0916\u091A\u0948\u0928\u093E\u0928\u0940\u0930\u0940\u091D\u0941\u092E\u0932\u091C\u093F\u0935\u0924\u0930\u093E\u092E

这就是为什么他们不匹配。我的“toEscapeUnicode”方法生成没有空格的 Unicode。我想要空间，那么怎么做呢？

score 2 · Accepted Answer

这不是一个完整的答案，但是......当我复制'n'粘贴Unicode字符“चौरेउत्तमयादव”然后使用几个工具来分析那里的内容时，我看不到任何空格：

echo "चौरेउत्तमयादव " | odx

这会产生数据的十六进制转储；最后有一个空白，但中间没有。

0x0000: E0 A4 9A E0 A5 8C E0 A4 B0 E0 A5 87 E0 A4 89 E0   ................
0x0010: A4 A4 E0 A5 8D E0 A4 A4 E0 A4 AE E0 A4 AF E0 A4   ................
0x0020: BE E0 A4 A6 E0 A4 B5 20 0A                        ....... .
0x0029:

第二个命令解码 UTF-8 数据：

echo "चौरेउत्तमयादव " | utf8-unicode

它产生：

0xE0 0xA4 0x9A = U+091A
0xE0 0xA5 0x8C = U+094C
0xE0 0xA4 0xB0 = U+0930
0xE0 0xA5 0x87 = U+0947
0xE0 0xA4 0x89 = U+0909
0xE0 0xA4 0xA4 = U+0924
0xE0 0xA5 0x8D = U+094D
0xE0 0xA4 0xA4 = U+0924
0xE0 0xA4 0xAE = U+092E
0xE0 0xA4 0xAF = U+092F
0xE0 0xA4 0xBE = U+093E
0xE0 0xA4 0xA6 = U+0926
0xE0 0xA4 0xB5 = U+0935
0x20 = U+0020
0x0A = U+000A

因此，您的问题似乎与“toEscapedUnicode”的输入有关，而不是其输出。

此外，我从问题中复制的内容似乎与您在字符串中所说的不匹配：

Yours     Mine

\u0938    U+091A
\u0941    U+094C
\u0916    U+0930
\u091A    U+0947
\u0948    U+0909
\u0928    U+0924
\u093E    U+094D
\u0928    U+0924
\u0940    U+092E
\u0020
\u0930    U+092F
\u0940    U+093E
\u091D    U+0926
\u0941    U+0935
\u092E
\u0932
\u0020
\u091C
\u093F
\u0935
\u0924

因此，由于其他原因，粘贴的文本也与声明的翻译不匹配。

我相信您指定的 Unicode 字符串应如下所示：

सुखचैनानी रीझुमल जिवतराम</p>

我使用了一个包含您声明的值的文件，减去\u前缀并用 0020 代替空白：

然后我使用这个纯自制的 Perl 脚本来生成我建议的 UTF-8 字符串，作为你的转义 Unicode 字符串的等价物。我确信 Perl 中有可用的机制来做这件事（使用与 Unicode 相关的模块），但这对我有用。如果我没有将调试代码留在那里，它会不那么冗长）：

#!/bin/perl -w

use strict;
use constant debug => 0;

while (<>)
{
    chomp;
    my $i = hex;
    printf STDERR "0x%04X = %4d\n", $i, $i if debug;
    if ($i < 0x100)
    {
        # 1-byte UTF-8
        printf STDERR "  0x%02X (%3d)\n", $i, $i if debug;
        printf "%c", $i;
    }
    elsif ($i < 0x800)
    {
        # 2-byte UTF-8
        my($b1) = 0xC0 | (($i >> 6) & 0xFF);
        my($b2) = 0x80 | ($i & 0x3F);
        printf STDERR "  0x%02X (%3d)\n", $b1, $b1 if debug;
        printf STDERR "  0x%02X (%3d)\n", $b2, $b2 if debug;
        printf "%c%c", $b1, $b2;
    }
    elsif ($i < 0x10000)
    {
        # 3-byte UTF-8
        my($b1) = 0xE0 | (($i >> 12) & 0xFF);
        my($b2) = 0x80 | (($i >>  6) & 0x3F);
        my($b3) = 0x80 | ( $i        & 0x3F);
        printf STDERR "  0x%02X (%3d)\n", $b1, $b1 if debug;
        printf STDERR "  0x%02X (%3d)\n", $b2, $b2 if debug;
        printf STDERR "  0x%02X (%3d)\n", $b3, $b3 if debug;
        printf "%c%c%c", $b1, $b2, $b3;
    }
    else
    {
        # 4-byte UTF-8 or error
        die "Oh bother!";
    }
}
print "\n";

您可以填写 4 字节的 UTF-8 和错误处理内容。我不会诊断无效的 UTF-8 序列（尤其是 UTF-16 代理项），因此如果您放入虚假的 Unicode 数据点，您将从脚本中得到虚假的 UTF-8 值。如果您需要了解更多信息，请阅读 Unicode 书籍的第 3 章（可从Unicode.org下载 - 作为一章）或常见问题解答 - UTF-8、UTF-16、UTF-32 和 BOM。

score 0 · Accepted Answer

我有类似的情况，我必须显示类似这样的数据 "\U0928\U093e\U0936\U092a\U093e\U0924\U0940" 必须是नाशपाती

我搜索了很多来转换它，但我发现自己的答案非常简单易行。

只有我必须将来自 JSON 的给定字符串放入 UILabel 或任何你想要的东西。就我而言，它是这样的：

let meaning = array[indexPath.row] as! NSDictionary
cell.textLabel?.text = meaning.value(forKey: "key") as? String

unicode - toEscapedUnicode 方法生成的 Unicode 没有空格

2 回答 2

Related

Reference