perl - Perl 的 Net::Cassandra 模块是否支持 UTF-8？

Question

我遇到了一个非常奇怪的 UTF-8 问题Net::Cassandra::Easy（基于Net::Cassandra）：写入 Cassandra 的 UTF-8 字符串在检索时出现乱码。

以下代码显示了问题：

use strict;
use utf8;
use warnings;
use Net::Cassandra::Easy;

binmode(STDOUT, ":utf8");

my $key = "some_key";
my $column = "some_column";
my $set_value = "\x{2603}"; # U+2603 is ☃ (SNOWMAN)
my $cassandra = Net::Cassandra::Easy->new(keyspace => "Keyspace1", server => "localhost");
$cassandra->connect();
$cassandra->mutate([$key], family => "Standard1", insertions => { $column => $set_value });
my $result = $cassandra->get([$key], family => "Standard1", standard => 1);
my $get_value = $result->{$key}->{"Standard1"}->{$column};
if ($set_value eq $get_value) {
    # this is the path I want.
    print "OK: $set_value == $get_value\n";
} else {
    # this is the path I get.
    print "ERR: $set_value != $get_value\n";
}

运行上面的代码时，$set_value eq $get_value计算结果为false. 我究竟做错了什么？

score 4 · Accepted Answer

添加use Encode;到脚本的开头，并通过Encode::decode_utf8. 例如：

my $get_value = $result->{$key}->{"Standard1"}->{$column};
$get_value = Encode::decode_utf8($get_value);

输出：

OK: ☃ == ☃

当您设置$set_value为 "\x{2603}" 时，Perl 会检测到宽字符并将字符串编码设置为 UTF-8。要确认这一点，请打印的返回值Encode::is_utf8($set_value)。

不幸的是，一旦这个字符串进入 Cassandra 并再次退出，编码信息就会丢失。Cassandra 似乎与编码无关。调用Encode::decode_utf8告诉 Perl 你有一个包含 UTF-8 字节序列的字符串，并且它应该被转换成 Perl 的 Unicode 内部表示。正如 jrockway 指出的那样，您还应该Encode::encode_utf8在将任何字符串发送到 Cassandra 之前调用它们，尽管在大多数情况下 Perl 已经知道它们是 UTF-8，例如，如果您打开了带有:utf8编码层的文件。

如果您经常使用 UTF-8，您可能需要在 Net::Cassandra::Easy 上编写一个包装器来自动执行此操作。

use utf8;最后，除非您的 Perl源代码（变量名、注释等）包含 UTF-8 字符，否则您不需要。无论您是否指定， Perl 都可以处理 UTF-8字符串use utf8;。

perl - Perl 的 Net::Cassandra 模块是否支持 UTF-8？

1 回答 1

Related

Reference