我有一组用户及其相关的词。这就是我对它们进行分组的方式:
我已将每个单词与一个数字相关联,如果用户没有关联这些单词中的任何一个,我给出一个值 0 :
谷歌:1 stackoverflow:2数学:3编程:4 noword:0
为了运行 k-means 算法,我将这些词关联起来,如下所示:
username google stackoverflow math programming
user1 1 0 3 0
user2 1 2 0 4
user3 0 2 3 0
user4 1 1 0 4
这是如何对每个用户进行聚类并根据他们配置的单词检查他们彼此之间的距离的正确实现吗?
我将此实现基于:http ://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/K-Means
特别是本节: