3

我想看看两个非英语字符串在语音上有多相似,AFAIK soundexmetaphone实现仅适用于基于英语的字符串,例如coraçãocorassão在葡萄牙语中听起来完全一样,但metaphone()返回KRandKRS。其他音素也会发生同样的事情,chitaxita返回XTandST,但它们听起来是一样的。

我也尝试过这个Double Metaphone 实现演示),但结果完全相同。

那么,是否有任何替代算法适用于葡萄牙语单词?我在另一个问题中读过关于 Lucene 的内容,但我以前从未使用过它,我不确定它是如何工作的或如何使用它。

如果没有,有谁知道我需要收集什么样的数据来开发类似变音位的算法?

4

1 回答 1

2

万一有人感兴趣,我在这里找到了一个有前途的正在进行的工作和其他一些 很酷的项目

于 2012-05-29T17:54:40.910 回答