7

令我惊恐的是,我刚刚发现它chr不适用于 Unicode,尽管它可以做一些事情。手册页很清楚

返回字符集中由该 NUMBER 表示的字符。例如,chr(65)" 是 ASCII 或 Unicode 中的 "A",而 chr(0x263a) 是 Unicode 笑脸。

事实上,我可以使用打印笑脸

perl -e 'print chr(0x263a)'

但是诸如此类的chr(0x00C0)事情不起作用。我看我的perl v5.10.1有点老了,但是当我在源代码中粘贴各种奇怪的字母时,一切都很好。

我尝试过类似 and 之类的有趣的东西use utf8use encoding 'utf8'但我没有尝试过类似 and 之类的有趣的东西use v5.12use feature 'unicode_strings'因为它们不适用于我的版本,所以我在胡闹Encode::decode发现我不需要解码,因为我没有要解码的字节数组。我阅读的文档比以往任何时候都多,发现了很多有趣的东西,但没有任何帮助。它看起来像是一种Unicode Bug,但没有给出可用的解决方案。此外,我不关心整个字符串语义,我只需要一个微不足道的函数。

那么如何将数字转换为由与其对应的单个字符组成的字符串,例如real_chr(0xC0) eq 'À'成立呢?


我得到的第一个答案解释了有关 IO 的所有内容,但我仍然不明白为什么

#!/usr/bin/perl -w
use strict;
use utf8;
use encoding 'utf8';

print chr(0x00C0) eq 'À' ? 'eq1' : 'ne1', " - ", chr(0x263a) eq '☺' ? 'eq1' : 'ne1', "\n";

print 'À' =~ /\w/ ? "match1" : "no_match1", " - ", chr(0x00C0) =~ /\w/ ? "match2" : "no_match2", "\n";

印刷

ne1 - eq1
match1 - no_match2

这意味着手动输入的'À'不同于chr(0x00C0)。此外,前者是单词组成字符(正确!),而后者不是(但应该是!)。

4

1 回答 1

11

第一的,

perl -le'print chr(0x263A);'

是越野车。Perl 甚至会告诉你很多:

Wide character in print at -e line 1.

这不符合“工作”的条件。因此,尽管它们在无法提供您想要的东西方面有所不同,但以下都没有给您想要的东西:

perl -le'print chr(0x263A);'

perl -le'print chr(0x00C0);'

要正确输出这些 Unicode 代码点的 UTF-8 编码,您需要告诉 Perl 使用 UTF-8 对 Unicode 点进行编码。

$ perl -le'use open ":std", ":encoding(UTF-8)"; print chr(0x263A);'
☺

$ perl -le'use open ":std", ":encoding(UTF-8)"; print chr(0x00C0);'
À

现在谈谈“为什么”。

文件句柄只能传输字节,所以除非你另有说明,否则 Perl 文件句柄需要字节。这意味着您提供的字符串print只能包含字节,或者换句话说,它不能包含超过 255 个字符。输出正是您提供的内容:

$ perl -e'print map chr, 0x00, 0x65, 0xC0, 0xF0' | od -t x1
0000000 00 65 c0 f0
0000004

这很有用。这与您想要的不同,但这并没有错。如果你想要不同的东西,你只需要告诉 Perl 你想要什么。

通过添加一个:encoding层,句柄现在需要一串 Unicode 字符,或者我称之为“文本”。该层告诉 Perl 如何将文本转换为字节。

$ perl -e'
   use open ":std", ":encoding(UTF-8)";
   print map chr, 0x00, 0x65, 0xC0, 0xF0, 0x263a;
' | od -t x1
0000000 00 65 c3 80 c3 b0 e2 98 ba
0000011

chr不知道或不关心 Unicode 的权利。像length,和substr,实现了一个基本的字符串函数,而不是一个 Unicode 函数。这并不意味着它不能用于处理文本字符串。如您所见,问题不在于您在构建字符串后对字符串所做的操作。ordreversechrchr

字符是字符串的元素,字符是数字。这意味着字符串只是一个数字序列。是否将这些数字视为 Unicode 代码点(文本)、打包的 IP 地址或温度测量值完全取决于您和您将字符串传递给的函数。

以下是一些运算符的示例,它们确实为它们作为操作数接收的字符串分配了含义:

  • m//需要一串 Unicode 代码点。
  • connect需要表示sockaddr_in结构的字节序列。
  • print带有句柄而不:encoding期望字节序列。
  • print带有一个带有:encoding一系列 Unicode 代码点的句柄。
  • ETC

那么如何将数字转换为由与其对应的单个字符组成的字符串,以便例如 real_chr(0xC0) eq 'À' 成立?

chr(0xC0) eq 'À'确实成立。您是否记得告诉 Perl 您使用 UTF-8 对源代码进行了编码use utf8;?如果您没有告诉 Perl,Perl 实际上会在 RHS 上看到两个字符的字符串。


关于您添加的问题:

encoding编译指示存在问题。我建议不要使用它。相反,使用

use open ':std', ':encoding(UTF-8)';

这将解决其中一个问题。您遇到的另一个问题是

chr(0x00C0) =~ /\w/

这是一个已知的错误,出于向后兼容性的原因故意破坏。也就是说,除非您请求更新版本的语言,如下所示:

use 5.014;    # use 5.012; *might* suffice.

一种可追溯到 5.8 的解决方法:

my $x = chr(0x00C0);
utf8::upgrade($x);
$x =~ /\w/
于 2012-09-06T00:15:15.640 回答