该函数的签名是unicode:characters_to_list(Data, InEncoding)
,它期望Data
是包含编码中InEncoding
编码的字符串的二进制文件,或者可能是字符(代码点)和编码中的二进制文件的深层列表InEncoding
。它返回 unicode 字符列表。erlang 中的字符是整数。
当您调用unicode:characters_to_list(<<208,144,208,145,208,146>>, utf8)
或unicode:characters_to_list([1040,1041,1042], utf8)
它正确解码 unicode 字符串时(是的,只要Data
是整数列表,第二个就是 noop)。但是当你调用unicode:characters_to_list([208,144,208,145,208,146], utf8)
erlang 时认为你在编码中传递了 6 个字符的列表utf8
,因为它已经是 unicode,所以输出将完全相同。
erlang中没有byte
类型,但您假设它unicode:characters_to_list/2
会接受list of bytes
并且行为正确。
把它们加起来。在 erlang 中有两种常用的表示字符串的方法,它们是位串和字符列表。在编码中采用这些表示之一(或它们的组合)中的unicode:characters_to_list(Data, InEncoding)
字符串并将其转换为 unicode 代码点列表。Data
InEncoding
如果您有[208,144,208,145,208,146]
示例中的列表,则可以使用将其转换为二进制文件erlang:list_to_binary/1
,然后将其传递给unicode:characters_to_list/2
,即
1> unicode:characters_to_list(list_to_binary([208,144,208,145,208,146]), utf8).
[1040,1041,1042]
unicode
模块仅支持 unicode 和 latin-1。因此,(因为函数需要 unicode 或 latin-1 的代码点)characters_to_list
在代码点的平面列表的情况下不需要对 list 做任何事情。但是,列表可能很深(unicode:characters_to_list([[1040],1041,<<1042/utf8>>]).
)。这是支持Data
参数列表数据类型的原因。