javascript - 计算外语中出现的字符数

Question

是否有任何最佳方法来实现非英文字母的字符计数？例如，如果我们在英语中取“母亲”这个词，它是一个 6 个字母的词。但是，如果您在泰米尔语中键入相同的单词（மதர்），它是三个字母的单词（ம+த+ர்），但最后一个字母（ர்）将被系统视为两个字符（ர+ஂ=ர்）。那么有没有办法计算真实字符的数量呢？

一个线索是，如果我们将键盘中的光标移动到单词（மதர்）中，它只会通过 3 个字母，而不是系统考虑的 4 个字符，那么有没有办法通过使用它来找到解决方案？对此的任何帮助将不胜感激......

score 8 · Accepted Answer

更新

吃完午饭回来=）我担心以前的任何外语都不能很好地工作所以我用一种可能的方式添加了另一个小提琴

var UnicodeNsm = [Array 1280] //It holds all escaped Unicode Non Space Marks
function countNSMString(str) {
    var chars = str.split("");
    var count = 0;
    for (var i = 0,ilen = chars.length;i<ilen;i++) {
      if(UnicodeNsm.indexOf(escape(chars[i])) == -1) {
        count++;
       }
    }
    return count;
}

var English = "Mother";  
var Tamil = "மதர்";
var Vietnamese = "mẹ"
var Hindi = "मां"

function logL (str) {    
      console.log(str + " has " + countNSMString(str) + " visible Characters and " + str.length + " normal Characters" ); //"மதர் has 3 visible Characters"
}

logL(English) //"Mother has 6 visible Characters and 6 normal Characters"
logL(Tamil) //"மதர் has 3 visible Characters and 4 normal Characters"
logL(Vietnamese) //"mẹ has 2 visible Characters and 3 normal Characters"
logL(Hindi) //"मां has 1 visible Characters and 3 normal Characters"

所以这只是检查字符串中是否有任何字符是 Unicode NSM 字符并忽略此计数，这应该适用于大多数语言，而不仅仅是泰米尔语，并且具有 1280 个元素的数组不应该那么大性能问题

这是 Unicode NSM 的列表 http://www.fileformat.info/info/unicode/category/Mn/list.htm

这是相应的JSBin

在尝试了一些字符串操作之后，结果是 String.indexOf返回相同的

"ர்"和为"ர" 意义
"ர்ரர".indexOf("ர்") == "ர்ரர".indexOf("ர" + "்") //true但
"ர்ரர".indexOf("ர") == "ர்ரர".indexOf("ர" + "ர")//假

我借此机会尝试了这样的事情

//ர்

var char = "ரர்ர்ரர்்";
var char2 = "ரரர்ர்ரர்்";    
var char3 = "ர்ரர்ர்ரர்்";

function countStr(str) {
         var  chars = str.split("");
         var count = 0;
          for(var i = 0, ilen = chars.length;i<ilen;i++) {
                 var chars2 = chars[i] + chars[i+1];   
                 if (str.indexOf(chars[i]) == str.indexOf(chars2))
                   i += 1;
               count++;
            }
         return count;
 }


console.log("--");

console.log(countStr(char)); //6

console.log(countStr(char2)); //7

console.log(countStr(char3)); //7

这似乎适用于上面的字符串，它可能需要一些调整，因为我对编码和其他东西一无所知，但也许它是你可以开始的一点

这是JSBin

score 2 · Accepted Answer

您可以使用此函数忽略计数计算中的组合标记：

function charCount( str ) {
    var re = /[\u0300-\u036f\u1dc0-\u1dff\u20d0-\u20ff\ufe20-\ufe2f\u0b82\u0b83\u0bbe\u0bbf\u0bc0-\u0bc2\u0bc6-\u0bc8\u0bca-\u0bcd\u0bd7]/g
    return str.replace( re, "").length;
}

console.log(charCount('மதர்'))// 3

//More tests on random Tamil text:
//Paint the text character by character to verify, for instance 'யெ' is a single character, not 2

console.log(charCount("மெய்யெழுத்துக்கள்")); //9
console.log(charCount("ஒவ்வொன்றுடனும்")); //8
console.log(charCount("தமிழ்")); //3
console.log(charCount("வருகின்றனர்.")); //8
console.log(charCount("எழுதப்படும்")); //7

泰米尔语标志和标记不是用 unicode 中的目标字符组成的单个字符，因此规范化无济于事。我已将所有泰米尔语组合标记或符号手动添加到正则表达式中，但它还包括正常组合标记的范围，因此charCount("ä")无论1规范化形式如何。

javascript - 计算外语中出现的字符数

2 回答 2

更新

Related

Reference