我一直在使用 Soundex 算法,我发现它已经在 Java http://introcs.cs.princeton.edu/java/31datatype/Soundex.java.html中准备好了。该程序的主要用途是准备一个 .cvs 文件,然后在将其条目保存到数组中之后,它会借助该算法检查其中一个数组的语音相似性。(有关 soundex 算法的更多信息http://en.wikipedia.org/wiki/Soundex)。
我的 .cvs 文件大约有 200.000 个条目,因此,检查 30.000 个条目需要 5 个小时,我认为这很慢。[我的算法将数组的每个条目与所有其他条目一起检查,除了已经检查过的条目 - 所以,我认为这里没有问题]。
所以,我的问题是:有没有办法减少这个时间?
我一直在考虑在 SQL 的帮助下将我的数据库直接连接到程序,但我不知道是否有另一种方法可以更快地做到这一点。
请任何建议都会非常有帮助。