我如何计算两个文档之间的距离?在数字的 k 均值中,您必须计算两点之间的距离。我知道我可以使用 cosinus 函数。我想对 rss 文档进行聚类。我已经完成了词干提取并从文档中删除了停用词。我已经计算了每个文档中单词的频率。现在我想实现k-mean算法。
问问题
2054 次
3 回答
1
有各种距离函数。一是欧几里得距离。
于 2011-05-31T16:00:23.610 回答
1
我假设您的困难在于创建特征向量?为每个文档创建一个特征向量
- 将所有单词收集在一起形成一个巨大的向量
- 将该向量的元素设置为项数。
例如,如果您有
Document 1 = the quick brown fox jumped over the brown dog
Document 2 = the brown cows eat hippo meat
那么总的词集是 [the,quick,brown,fox,jumped,over,the,dog,cows,eat,hippo,meat] 并且文档向量是
Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0]
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1]
现在你只有两个巨大的特征向量可以用来表示文档,你可以使用 k-means 聚类。正如其他人所说,欧几里得距离可用于计算文档之间的距离。
于 2011-05-31T16:02:44.047 回答
0
您可以将欧几里得距离公式用于 n 维系统。
sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ... )
于 2011-05-31T16:00:50.833 回答