为了对我从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中 2 个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心。
我能想到的就是用 tf-idf 加权构建我自己的向量空间模型,使用 TermFreqVectors 和整体词频来填充它。
我的问题是:这不是一种有效的方法,有没有更好的方法来做到这一点?
这感觉有点不清楚,所以任何关于如何改进我的问题的建议也值得赞赏。
为了对我从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中 2 个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心。
我能想到的就是用 tf-idf 加权构建我自己的向量空间模型,使用 TermFreqVectors 和整体词频来填充它。
我的问题是:这不是一种有效的方法,有没有更好的方法来做到这一点?
这感觉有点不清楚,所以任何关于如何改进我的问题的建议也值得赞赏。