将 JavaScript 字符串拆分为“字符”可以轻松完成,但如果您关心 Unicode(并且您应该关心 Unicode),就会出现问题。
JavaScript 本机将字符视为 16 位实体(UCS-2 或 UTF-16),但这不允许BMP(基本多语言平面)之外的 Unicode 字符。
为了处理 BMP 之外的 Unicode 字符,JavaScript 必须考虑“代理对”,它本身并不这样做。
我正在寻找如何按代码点拆分 js 字符串,代码点是否需要一个或两个 JavaScript“字符”(代码单元)。
根据您的需要,按代码点拆分可能还不够,您可能希望按“字形集群”拆分,其中集群是一个基本代码点,后跟其所有非间距修饰符代码点,例如组合重音符号和变音符号。
出于这个问题的目的,我不需要按字素簇拆分。