4

我有一个包含几个单词的字符串。我想找出所有只包含泰米尔语 Unicode 字符的单词。我是 JavaScript 新手。

使用 Go,我做同样的事情:

            tokens := strings.Fields(stringContent, delim) // split based on delim, say space

            for _, token := range tokens { //like foreach
                r, l := utf8.DecodeRuneInString(token)
                if l != 1 {
                    if unicode.Is(unicode.Tamil, r) {
                        // Tamil word
                    }
                }
            }

我发现 string.split() 会给我基于分隔符的单个单词,在 javascript 中。但我不知道如何获取该单词是否为 UTF-8 TAMIL 单词。有人可以帮我在 javascript 中实现这一点吗?

4

1 回答 1

10

简单的方法是对具有 unicode 范围内字符的单词进行正则表达式匹配

希望这会有所帮助: http: //kourge.net/projects/regexp-unicode-block

您可以开始使用的示例

"இந்தியா ASASAS எறத்தாழ ASSASAS குடியரசு ASWED SAASAS".match(/[\u0B80-\u0BFF]+/g);
于 2012-08-16T08:07:21.603 回答