2

为了对我从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中 2 个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心。

我能想到的就是用 tf-idf 加权构建我自己的向量空间模型,使用 TermFreqVectors 和整体词频来填充它。

我的问题是:这不是一种有效的方法,有没有更好的方法来做到这一点?

这感觉有点不清楚,所以任何关于如何改进我的问题的建议也值得赞赏。

4

3 回答 3

1

马克,您可能会发现Integrating Mahout with LuceneIR Math with JavaVector Space Classifier Using Lucene很有用。

于 2010-08-10T12:02:25.343 回答
0

最简洁的答案是不。

我花了很多时间(太多了)研究这个,据我所知,你可以制作自己的向量空间模型并从中工作,或者使用 Mahout 生成一个 Mahout 向量,你可以比较来自的文件。我要继续自己做,所以我将这个问题标记为已回答!

于 2010-08-10T14:37:27.777 回答
0

为了获得一个文档与另一个文档的相似性,为什么不使用一个文档的内容进行一个查询并针对索引运行查询呢?这样,您将获得分数(余弦相似度值)

于 2014-02-15T00:10:13.547 回答