我正在尝试聚类一些单词。
我的部分数据如下(只是示例)。
cat dog horse ostrich
cat 8 2.3 3.4 4.7
dog 7 8 3 2.4
horse 3.4 2.5 8 1.5
ostrich 3.4 3.2 4.4 8
数字越大意味着两个词之间的相似度越高。基于这种格式数据,我想制作一个聚类(例如,(猫,狗),(马),(鸵鸟)总共3个聚类)。
起初,我尝试使用 CLUTO... 制作一些集群和一个(非常漂亮的)图表,如下所示。
但我不能……我已经看过手册了,但不是那么容易理解。因此,我尝试在 nltk 中使用一些聚类库,例如 k-means..etc。但我不知道如何创建像上面这样的图表。(我也必须根据输入数据制作一些集群)