在浏览了这个网站的类似问题后,我发现了这个: http: //math.nist.gov/javanumerics/jama/和这个:http ://sujitpal.blogspot.com/2008/09/ir-math-with- java-similarity-measures.html
但是,这些似乎在 O(n^2) 中运行。我一直在做一些文档聚类,并注意到即使处理很小的文档集,这种复杂程度也是不可行的。给定,对于点积,我们只需要两个向量中包含的向量项,应该可以将向量放在树中,从而计算具有 n log n 复杂度的点积,其中 n 是唯一项的最少数量2 份文件中的 1 份。
我错过了什么吗?有没有一个java库可以做到这一点?
谢谢