看了这篇论文有点迷茫:Pairwise Document Similarity in Large Collections with MapReduce http://www.umiacs.umd.edu/~jimmylin/publications/Elsayed_etal_ACL2008_short.pdf 在这篇论文中,作者好像没有考虑word只出现在一个文档中,但是根据余弦相似度的定义,我们需要考虑这种情况,对吧?
我使用的材料是这样的:https ://www.dropbox.com/s/nctb66hh84ab32c/postings-Reuters-data
我使用的java代码是这样的:https ://www.dropbox.com/s/aklviixup4uulmu/CosineSimilarity.java
我生成的结果是这样的:https ://www.dropbox.com/s/ea6ov7l7yut7yfj/part-00000
在结果中,我看到很多 1 甚至大于 1 的数字。我觉得这有点奇怪,有人可以帮我找出原因吗?谢谢。