我是 Mahout 的初学者,我使用 Mahout 0.8 并遵循https://cwiki.apache.org/MAHOUT/clustering-of-synthetic-control-data.html中的教程
当我使用:
mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job -i testdata -o output -t1 20 -t2 50 -k 5 -x 20 -ow
然后使用 clusterdump 提取集群中心:
mahout clusterdump --input output/clusters-20-final --output /media/synthetic_control.center
在 synthesis_control.center 文件中:
VL-585{n=50 c=[29.832, 29.589, 29.405, 28.516, 29.600, ….] r=[3.152, 3.518, 3.292, …]}
VL-591{n=197 c=[29.984, 29.681,…] r=[3.602, 3.558, 3.364,…]}
VL-595{n=203 c=[….] r=[….]}
VL-597{n=61 c=[….] r=[….]}
VL-599{n=43 c=[….] r=[….]}
VL-585{n=1 c=[….] r=[….]}
VL-591{n=27 c=[….] r=[….]}
VL-595{n=1 c=[….] r=[….]}
VL-597{n=1 c=[….] r=[….]}
VL-599{n=16 c=[….] r=[….]}
似乎 kmean 生成了 10 个集群,但我对 k 的初始设置是 5。
我也尝试了其他 k,它总是生成双倍的集群。
谁能帮我这个?非常感谢!