我注意到,在将 Unicode 字符串规范化为 NFKC 形式时,上标字符(如¹
(U+00B9)、²
(U+00B2)、³
(U+00B3) 等)会转换为相应的 ASCII 数字(例如1
、2
、3
等)。
有谁知道这种行为的理由?似乎它在此过程中丢失了信息。例如,上标数字通常具有某种上下文含义。
我注意到,在将 Unicode 字符串规范化为 NFKC 形式时,上标字符(如¹
(U+00B9)、²
(U+00B2)、³
(U+00B3) 等)会转换为相应的 ASCII 数字(例如1
、2
、3
等)。
有谁知道这种行为的理由?似乎它在此过程中丢失了信息。例如,上标数字通常具有某种上下文含义。