我正在寻找一种方法来删除文本中的变音符号和其他字母标记,并以适合文本搜索索引的方式对其进行简化。
为了删除变音符号,我已经找到了这些:
我想知道一个通用的解决方案,独立于语言。(此外,此参考列表可能对某些人有用。)
删除变音符号适用于äöüò等。但我也想要:
- Ø → Ø
- Я → R
- Ł → L
- ɲ → n
- æ → a(也可以是“ae”,但在我的情况下,“a”更有意义,因为我也想用“a”替换“ae”)
例如,我想索引名称 Røyksopp,有时也出现在简化名称 Royksopp 下的 Röyksopp。或者 KoЯn 应该是 KoRn。