我正在尝试对以下数据集运行 Kmeans 聚类,
Name,Gender,Age,Drinks,Country
John,M,30,Pepsi,US
Jack,M,25,Coke,US
David,M,34,Pepsi,UK
Ted,M,37,Limca,CAN
Robert,M,23,Limca,US
Adrian,M,31,Pepsi,US
Craig,M,37,Coke,UK
Katie,F,23,Limca,UK
Nancy,F,32,Pepsi,UK
我想根据饮料(百事可乐,可乐,Limca)对数据进行聚类,并且我能够做到。但我也想在聚类数据旁边检索名称。
我得到的输出是
0
1
2
Limca belongs to cluster:0
Cokde belongs to cluster:0
etc.
在这里我也想得到名字。
在转换为序列文件时,我将键作为饮料,将值作为文本的其余部分并转换为稀疏向量,然后运行 Kmeans 聚类,名称不会打印。任何人都可以指出我如何从值中的集群中提取名称。