我正在寻找一种有效的方法来获取 JavaScript 字符串并返回该字符串中出现的所有脚本。
必须正确处理完整的 UTF-16,包括需要代理对的“星体”平面/非 BMP 字符。这可能是主要问题,因为 JavaScript 不支持 UTF-16。
它只需要处理代码点,因此不需要对复杂脚本或字素集群的花哨意识。(无论如何,这对你们中的一些人来说是显而易见的。)
例子:
stringToIso15924("παν語");
会返回类似:
[ "Grek", "Hani" ]
我已经在使用 node.js 和一些 Unicode 库,例如XRegExp和unorm,所以我不介意添加其他可能已经处理或简化此类功能的库。
我不知道可以查找脚本代码等字符属性的 JavaScript 库,所以这可能是问题的第二部分。
问题的第三部分只是为了避免效率低下。