-2

我的数据库中存储了数百万个名称,这些名称只不过是客户名称,
我必须对内部语音上彼此相似的名称进行聚类
,我正在使用的一种方法是将每个名称与从基于数据库的一些选择性相似名称匹配on sound-ex,meta-phone,initials..etc
但它很慢,
现在我正在考虑为每个名称生成唯一 id 并聚类相似的唯一 id,但我无法生成唯一 id。那里的名字是印度人的名字,用英文字母写的。
有没有聚类相似名称的算法。请帮忙

4

1 回答 1

0

这里的关键问题是“语音相似”。您需要知道如何从音素生成唯一 ID。

您不会说这些名称存储在哪种语言和字母中。

也许这个问题与语音合成算法有更多共同点:

http://social.msdn.microsoft.com/Forums/da/netfxbcl/thread/b6b88747-9616-462e-9cf6-78c19da32f38

或者这个用于 Java:

http://voce.sourceforge.net/

于 2012-05-16T14:51:45.857 回答