1

我正在寻找一种有效的方法来获取 JavaScript 字符串并返回该字符串中出现的所有脚本

必须正确处理完整的 UTF-16,包括需要代理对的“星体”平面/非 BMP 字符。这可能是主要问题,因为 JavaScript 不支持 UTF-16。

它只需要处理代码点,因此不需要对复杂脚本或字素集群的花哨意识。(无论如何,这对你们中的一些人来说是显而易见的。)

例子:

stringToIso15924("παν語");

会返回类似:

[ "Grek", "Hani" ]

我已经在使用 node.js 和一些 Unicode 库,例如XRegExpunorm,所以我不介意添加其他可能已经处理或简化此类功能的库。

我不知道可以查找脚本代码等字符属性的 JavaScript 库,所以这可能是问题的第二部分。

问题的第三部分只是为了避免效率低下。

4

1 回答 1

2

我回答了一个类似的问题,至少是相关的。在此 pastebin中,您将使用 (looooong) 函数返回字符的脚本名称。修改它以适应字符串应该很容易。

于 2013-05-09T09:50:01.900 回答