4

我在 Elasticsearch 中使用了带有“Phonetic Token Filter”的Metaphonesoundex编码器。

Metaphone适合英语单词。

Soundex适用于英语以及印地语,也许还有许多其他语言

我想知道哪些编码器最适合印地语以及其他印度语言(如果可能)?

  • 声讯
  • 变音器
  • 双变位音
  • 精炼的_soundex
  • caverphone1 - 英语(新西兰本地化)
  • caverphone2 - 英语(新西兰本地化)
  • 科隆 - 德语
  • nysiis - 即兴的 Soundex
  • koelnerphonetik - 德语
  • haasephonetik - 德语
  • beider_morse - 英语和多种欧洲语言
  • daitch_mokotoff - 斯拉夫和意第绪语姓氏

由于Elasticsearch 网站上没有列出我们应该为哪种语言选择哪种编码器。

还请告诉我您已经使用了哪些编码器以及用于哪种语言。

4

1 回答 1

3

语音编码器是通过发音来索引单词的算法。

对此的解释可在 wikipedia 上找到

  1. Metaphone、Double Metaphone 和 Metaphone 3:适用于大多数英语单词,而不仅仅是名称。变音位算法是许多流行拼写检查器的基础。双变音位语音编码算法是该算法的第二代。
  2. Soundex:开发用于对用于人口普查的姓氏进行编码。Soundex 代码是由单个字母后跟三个数字组成的四个字符的字符串。
  3. Daitch–Mokotoff Soundex:这是对 Soundex 的改进,旨在更好地匹配斯拉夫和日耳曼血统的姓氏。Daitch–Mokotoff Soundex 代码是由六个数字组成的字符串。
  4. Cologne phonetics:这和 Soundex 类似,但更适合德语单词。
  5. 纽约州识别和情报系统 (NYSIIS):将相似的音素映射到同一个字母。结果是一个无需解码即可被阅读器发音的字符串。
  6. 西部航空公司于 1977 年开发的匹配评级方法:该算法具有编码和范围比较技术。
  7. Caverphone:创建用于协助 19 世纪末和 20 世纪初选民名册之间的数据匹配,针对新西兰部分地区的口音进行了优化

参考资料:上述算法及其子类型的详细信息可在下面的维基百科页面 1 中找到。https://en.wikipedia.org/wiki/Phonetic_algorithm

以上 SoundEx 最适合印度语言您可以查看以下资源以获取相同的信息 1.印度语言的拼音搜索 2. https://thottingal.in/blog/2009/07/26/indicsoundex/

于 2020-03-28T05:49:34.530 回答