perl - 使用 Perl 将数字十六进制格式的 UCS2（未知 LE 或 BE）转换为 UTF-8

Question

希望有人能指出我在哪里出错的方向：

我有一串（我相信的）是十六进制编码的 UCS2，但提供商无法告诉我它是 UCS2-LE 还是 UCS2-BE。

像这样：0627062E062A062806270631

它翻译为：اختبا

显然是阿拉伯语……但无论我是否尝试将其转换为十六进制，将其用作直接的 UCS2（LE 或 BE）或实际上我在阳光下能想到的任何其他东西，我都无法将其转换为本地 - perl UTF-8，以便我可以重新编码为标准 UTF-8（我们系统的本机格式）。

代码：

my $string = "0627062E062A062806270631";
my $decodedHex = hex($string);

#NEAREST
my $perlDecodedUTF8 = decode("UCS-2BE", $decodedHex);
my $utf8 = encode('UTF-8',$perlDecodedUTF8);

open(ARABICTEST,">ucs2test.txt");
print(ARABICTEST $perlDecodedUTF8);
print("Done!");
close(ARABICTEST);

它现在输出乱码。

现在我想出的一个想法是将有问题的字符串分成 4 个字符的部分（即每个十六进制代码），但即使尝试使用单个已知的 UCS2 十六进制值似乎也不起作用。

还尝试强制输出编码，也没有乐趣。

谢谢！

score 9 · Accepted Answer

hex不是将十六进制字符串解码为字节序列的方法。 pack是。（hex产生一个整数，而不是一串字节。）除此之外，你很接近。试试这个：

use strict;
use warnings;
use Encode;

my $string = "0627062E062A062806270631";
my $decodedHex = pack('H*', $string);

my $perlDecodedUTF8 = decode("UCS-2BE", $decodedHex);

open(my $ARABICTEST,">:utf8", "ucs2test.txt");
print $ARABICTEST $perlDecodedUTF8;
print("Done!");
close($ARABICTEST);

注意：您可能希望使用 UTF-16BE 而不是 UCS-2BE。它们基本上是一样的，但 UTF-16BE 允许代理对，而 UCS-2BE 不允许。所以所有 UCS-2BE 文本也是有效的 UTF-16BE，但反之则不然。

perl - 使用 Perl 将数字十六进制格式的 UCS2（未知 LE 或 BE）转换为 UTF-8

1 回答 1

Related

Reference