我想看看两个非英语字符串在语音上有多相似,AFAIK soundex和metaphone实现仅适用于基于英语的字符串,例如coração
,corassão
在葡萄牙语中听起来完全一样,但metaphone()
返回KR
andKRS
。其他音素也会发生同样的事情,chita
并xita
返回XT
andST
,但它们听起来是一样的。
我也尝试过这个Double Metaphone 实现(演示),但结果完全相同。
那么,是否有任何替代算法适用于葡萄牙语单词?我在另一个问题中读过关于 Lucene 的内容,但我以前从未使用过它,我不确定它是如何工作的或如何使用它。
如果没有,有谁知道我需要收集什么样的数据来开发类似变音位的算法?