cosine-similarity - 成对余弦相似度

翻译自：https://stackoverflow.com/questions/19649387 2013-10-29T03:58:00.783

328 次

看了这篇论文有点迷茫：Pairwise Document Similarity in Large Collections with MapReduce http://www.umiacs.umd.edu/~jimmylin/publications/Elsayed_etal_ACL2008_short.pdf 在这篇论文中，作者好像没有考虑word只出现在一个文档中，但是根据余弦相似度的定义，我们需要考虑这种情况，对吧？

我使用的材料是这样的：https ://www.dropbox.com/s/nctb66hh84ab32c/postings-Reuters-data

我使用的java代码是这样的：https ://www.dropbox.com/s/aklviixup4uulmu/CosineSimilarity.java

我生成的结果是这样的：https ://www.dropbox.com/s/ea6ov7l7yut7yfj/part-00000

在结果中，我看到很多 1 甚至大于 1 的数字。我觉得这有点奇怪，有人可以帮我找出原因吗？谢谢。

cosine-similarity - 成对余弦相似度

0 回答 0

Related

Reference