22

我正在比较字符串,必须替换 JS 中的变音符号,但似乎 JS 无法识别字符串中的变音符号。文本来自数据库,在浏览器中,变音符号确实显示得很好。

function replaceUmlauts(string)
{
    value = string.toLowerCase();
    value = value.replace(/ä/g, 'ae');
    value = value.replace(/ö/g, 'oe');
    value = value.replace(/ü/g, 'ue');
    return value;
}

作为我尝试的搜索模式:

  • “ä”、“ö”、“ü”
  • /ä/, /ö/, /ü/
  • ä”,“ ö”,“ ü”(完全绝望;-))

可以肯定的是,这与我尝试使用 indexOf 的替换功能无关:

console.log(value.indexOf('ä'));

但是所有模式的输出是:-1

所以我想这是编码的某种问题,但正如我在页面上所说的那样,变音符号看起来不错。

有任何想法吗?这看起来很简单……

编辑:即使我找到了答案,问题并没有真正“从根本上”解决(编码)。这是我的页面编码:

<meta content="text/html; charset=UTF-8" http-equiv="Content-Type">

数据库有:utf8_general_ci

对我来说似乎完全没问题。

4

5 回答 5

51

要么确保正确指定脚本的编码(在<script>标签中或页面的标题/元数据中,如果它是嵌入的),要么指定具有\uNNNN始终明确解析为某些特定 Unicode 代码点的语法的符号。

例如:

str.replace(/\u00e4/g, "ae")

无论为您的页面/脚本设置什么编码,即使它不正确,总是将 ä 替换为 ae。

以下是日耳曼语言所需的代码:

// Ü, ü     \u00dc, \u00fc
// Ä, ä     \u00c4, \u00e4
// Ö, ö     \u00d6, \u00f6
// ß        \u00df
于 2012-07-25T15:18:04.847 回答
21

如果您希望通过巧妙地尊重案例来替换德语变音符号,请使用此(开源,乐于分享,全部由我):

const umlautMap = {
  '\u00dc': 'UE',
  '\u00c4': 'AE',
  '\u00d6': 'OE',
  '\u00fc': 'ue',
  '\u00e4': 'ae',
  '\u00f6': 'oe',
  '\u00df': 'ss',
}

function replaceUmlaute(str) {
  return str
    .replace(/[\u00dc|\u00c4|\u00d6][a-z]/g, (a) => {
      const big = umlautMap[a.slice(0, 1)];
      return big.charAt(0) + big.charAt(1).toLowerCase() + a.slice(1);
    })
    .replace(new RegExp('['+Object.keys(umlautMap).join('|')+']',"g"),
      (a) => umlautMap[a]
    );
}

const test = ['Übung', 'ÜBUNG', 'üben', 'einüben', 'EINÜBEN', 'Öde ätzende scheiß Übung']
test.forEach((str) => console.log(str + " -> " + replaceUmlaute(str)))

它会:

  • 乌邦 -> 乌邦
  • 乌邦 -> 乌邦
  • üben -> ueben
  • 艾努本 -> 艾努本
  • 艾努本 -> 艾努本
  • Ä, Ö 也一样
  • 和简单的 ß -> ss
于 2019-01-24T11:51:42.007 回答
10

这是一个替换最常见字符以生成 Google 友好 SEO url 的函数:

function deUmlaut(value){
  value = value.toLowerCase();
  value = value.replace(/ä/g, 'ae');
  value = value.replace(/ö/g, 'oe');
  value = value.replace(/ü/g, 'ue');
  value = value.replace(/ß/g, 'ss');
  value = value.replace(/ /g, '-');
  value = value.replace(/\./g, '');
  value = value.replace(/,/g, '');
  value = value.replace(/\(/g, '');
  value = value.replace(/\)/g, '');
  return value;
}
于 2016-10-13T07:48:15.490 回答
2

您需要首先弄清楚您要替换的字符代码是什么。例如,根据字符编码,字符可能是 8859、UTF-8 或其他格式。它们也可以是字符符号,例如“ä”

与其猜测,不如打印出来。

请注意,您的传入数据可能不会始终使用相同的字符集/字符编码——您需要检查数据的来源。

所以通过使用字符串来查看传入的数据。charCodeAt

检查之前的字符代码toLowerCase以确保它不会改变你的东西。您需要逐步调试。

最后,检查编辑器中的字符集设置,确保输入的 ä 是应有的。您可能希望通过 UTF8 值指定它,而不是键入 ä、ö 等

于 2012-07-25T15:13:40.790 回答
0

如果您需要一个小片段将德语变音符号转换为 html 特殊字符,请执行以下操作:

function fixUmlauts(value) {
    value = value.replace(/ä/g, '&auml;');
    value = value.replace(/ö/g, '&ouml;');
    value = value.replace(/ü/g, '&uuml;');
    value = value.replace(/ß/g, '&szlig;');
    value = value.replace(/Ä/g, '&Auml;');
    value = value.replace(/Ö/g, '&Ouml;');
    value = value.replace(/Ü/g, '&Uuml;');
    return value;
}

于 2020-10-15T17:44:25.950 回答