我想在我的 android 应用程序中以语音方式比较字符串。但这里的特例是,我想比较用英语写的印度语单词。例如,我想检查“Edhu”“Adhu”“Yethu”是否在语音上相等,它们在泰米尔语中的意思都相同。但是使用英语脚本编写印度语言的人使用不同的拼写来制作这个词。在这种情况下如何比较单词?
我尝试了 Levenshtein。但我不确定如何将它返回的数字转换为相等。
我试过Soundex,当单词的第一个字母发生变化时,Soundex代码不一样。但它能够找出相似的发声部分。我不明白它是如何工作的。
soundex.encode("Yethu") (soundex.encode("Edhu")) (soundex.encode("adhu"))
Y300 E300 A300