javascript - JavaScript中巨大的字符串替换？

Question

我有一个小型 JavaScript 应用程序，可以解析用户放入浏览器的文件。最近我发现了一些非英文字符的问题。此处放置的文件类型使用的是 Windows-1252 字符集，因此诸如、之类的字符ñ实际上是通过 as 的Ã±，我必须将它们全部转换为正确的字符。

例如，我知道SeÃ±or应该是Señor西班牙语。

我找到了一个非常有用的网站，其中收集了角色以及我需要转换到的对应角色。

我将其压缩为两个 JavaScript 数组：

var toReplace = ["Ã€", "Ã", "Ã‚", "Ãƒ", "Ã„", "Ã…", "Ã†", "Ã‡", "Ãˆ", "Ã‰", "ÃŠ", "Ã‹", "ÃŒ", "Ã", "ÃŽ", "Ã", "Ã", "Ã‘", "Ã’", "Ã“", "Ã”", "Ã•", "Ã–", "Ã—", "Ã˜", "Ã™", "Ãš", "Ã›", "Ãœ", "Ã", "Ãž", "ÃŸ", "Ã", "Ã¡", "Ã¢", "Ã£", "Ã¤", "Ã¥", "Ã¦", "Ã§", "Ã¨", "Ã©", "Ãª", "Ã«", "Ã¬", "Ã", "Ã®", "Ã¯", "Ã°", "Ã±", "Ã²", "Ã³", "Ã´", "Ãµ", "Ã¶", "Ã·", "Ã¸", "Ã¹", "Ãº", "Ã»", "Ã¼", "Ã½", "Ã¾", "Ã¿"];
var replaceWith = ["À", "Á", "Â", "Ã", "Ä", "Å", "Æ", "Ç", "È", "É", "Ê", "Ë", "Ì", "Í", "Î", "Ï", "Ð", "Ñ", "Ò", "Ó", "Ô", "Õ", "Ö", "×", "Ø", "Ù", "Ú", "Û", "Ü", "Ý", "Þ", "ß", "à", "á", "â", "ã", "ä", "å", "æ", "ç", "è", "é", "ê", "ë", "ì", "í", "î", "ï", "ð", "ñ", "ò", "ó", "ô", "õ", "ö", "÷", "ø", "ù", "ú", "û", "ü", "ý", "þ", "ÿ"];

将段落中的所有字符替换为 in 中toReplace的对应（相同索引）的最有效方法是replaceWith什么？

我希望这不会太重循环，因为将 100 多个文件放入这个已经进行了一些繁重的循环和解析的应用程序并不少见。

也许有更好的方法来做到这一点，而不是将这些字符保存在数组中？

编辑- 我刚刚意识到我可能需要用 unicode equivilent 代替。这是一个按相同顺序排列的 unicode 字符数组：

var unicodeReplaceWith= ["\u00C0", "\u00C1", "\u00C2", "\u00C3", "\u00C4", "\u00C5", "\u00C6", "\u00C7", "\u00C8", "\u00C9", "\u00CA", "\u00CB", "\u00CC", "\u00CD", "\u00CE", "\u00CF", "\u00D0", "\u00D1", "\u00D2", "\u00D3", "\u00D4", "\u00D5", "\u00D6", "\u00D7", "\u00D8", "\u00D9", "\u00DA", "\u00DB", "\u00DC", "\u00DD", "\u00DE", "\u00DF", "\u00E0", "\u00E1", "\u00E2", "\u00E3", "\u00E4", "\u00E5", "\u00E6", "\u00E7", "\u00E8", "\u00E9", "\u00EA", "\u00EB", "\u00EC", "\u00ED", "\u00EE", "\u00EF", "\u00F0", "\u00F1", "\u00F2", "\u00F3", "\u00F4", "\u00F5", "\u00F6", "\u00F7", "\u00F8", "\u00F9", "\u00FA", "\u00FB", "\u00FC", "\u00FD", "\u00FE", "\u00FF"];

score 4 · Accepted Answer

我不太了解 JavaScript 的速度，或者为什么不能在服务器上正确配置它，但这是一种方法。

互动演示

首先我们把所有东西都变成一个对象，这样我们就可以查找翻译了。

var map = {};
for (var i=0; i<toReplace.length; i++) {
  map[toReplace[i]] = replaceWith[i];
}

然后我们将我们的键加入到一个正则表达式中
^{（注意：它们必须按最长排序，演示中的代码）。}

var expression = new RegExp(toReplace.join("|"), "g");

在替换函数中，我们可以用匹配替换结果。这就像在我们的map.

function doReplace(source) {
  return source.replace(expression, function(m) {
    return map[m];
  });
}

var result = doReplace("SeÃ±or");

javascript - JavaScript中巨大的字符串替换？

1 回答 1

互动演示

Related

Reference