4

I have utf8 sequence of bytes and need to trim it to say 30bytes. This may result in incomplete sequence at the end. I need to figure out how to remove the incomplete sequence.

e.g

$b="\x{263a}\x{263b}\x{263c}";
my $sstr;

print STDERR "length in utf8 bytes =" . length(Encode::encode_utf8($b)) . "\n";
{
use bytes;
$sstr= substr($b,0,29);
}

#After this $sstr contains "\342\230\272\342"\0 
# How to remove \342 from the end
4

2 回答 2

6

UTF-8 有一些简洁的属性,允许我们在处理 UTF-8 而不是字符时做你想做的事情。所以首先,你需要 UTF-8。

use Encode qw( encode_utf8 );
my $bytes = encode_utf8($str);

现在,在代码点之间进行拆分。0b0xxxxxxx每个代码点的 UTF-8 编码都以匹配的字节或开头0b11xxxxxx,您永远不会在代码点的中间找到这些字节。这意味着你想在之前截断

[\x00-\x7F\xC0-\xFF]

我们一起得到:

use Encode qw( encode_utf8 );

my $max_bytes = 8;
my $str = "\x{263a}\x{263b}\x{263c}";  # ☺☻☼

my $bytes = encode_utf8($str);
$bytes =~ s/^.{0,$max_bytes}(?![^\x00-\x7F\xC0-\xFF])\K.*//s;

# $bytes contains encode_utf8("\x{263a}\x{263b}")
#      instead of encode_utf8("\x{263a}\x{263b}") . "\xE2\x98"

太好了,是吗?没有。以上可以在字素中间截断。字素(特别是“扩展的字素簇”)是人们将其视为单个视觉单元的东西。例如,“é”是一个字形,但可以使用两个代码点 ( ) 对其进行编码"\x{0065}\x{0301}"。如果您在两个代码点之间进行切换,它将是有效的 UTF-8,但“é”将变成“e”!如果这不可接受,则上述解决方案也不是。(奥列格的解决方案也存在同样的问题。)

不幸的是,UTF-8 的属性不再足以帮助我们。我们需要一次抓取一个字形,并将其添加到输出中,直到我们无法容纳一个。

my $max_bytes = 6;
my $str = "abcd\x{0065}\x{0301}fg";  # abcdéfg

my $bytes = '';
my $bytes_left = $max_bytes;
while ($str =~ /(\X)/g) {
   my $grapheme = $1;
   my $grapheme_bytes = encode_utf8($grapheme);
   $bytes_left -= length($grapheme_bytes);
   last if $bytes_left < 0;
   $bytes .= $grapheme_bytes;
}

# $bytes contains encode_utf8("abcd")
#      instead of encode_utf8("abcde")
#              or encode_utf8("abcde") . "\xCC"
于 2012-06-08T19:18:29.563 回答
4

首先,请不要使用bytes(并且永远不要假设 Perl 中有任何内部编码)。如文档所述:此编译指示反映了将 Unicode 合并到 perl 的早期尝试,并且已被取代 <...> 强烈建议不要将此模块用于除调试目的之外的任何其他用途。

要在行尾去除不完整的序列,假设它包含八位字节,请使用Encode::decode'sEncode::FB_QUIET处理模式在遇到无效序列后停止处理,然后将结果编码回:

my $valid = Encode::decode('utf8', $sstr, Encode::FB_QUIET);
$sstr = Encode::encode('utf8', $valid);

请注意,如果您计划将来将其与另一种编码一起使用,则并非所有编码都支持这种处理方法。

于 2012-06-08T17:52:58.330 回答