我对抓取的页面(超过 25K 文档;个人数据集)进行了聚类测试。我做了一个集群转储:
$MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt
运行 cluster dumper 后的输出显示 25 个元素 "VL-xxxxx {}" :
VL-24130{n=1312 c=[0:0.017, 10:0.007, 11:0.005, 14:0.017, 31:0.016, 35:0.006, 41:0.010, 43:0.008, 52:0.005, 59:0.010, 68:0.037, 72:0.056, 87:0.028, ... ] r=[0:0.442, 10:0.271, 11:0.198, 14:0.369, 31:0.421, ... ]}
...
VL-24868{n=311 c=[0:0.042, 11:0.016, 17:0.046, 72:0.014, 96:0.044, 118:0.015, 135:0.016, 195:0.017, 318:0.040, 319:0.037, 320:0.036, 330:0.030, ...] ] r=[0:0.740, 11:0.287, 17:0.576, 72:0.239, 96:0.549, 118:0.273, ...]}
如何解释这个输出?
简而言之:我正在寻找属于特定集群的文档 ID。
是什么意思 :
- VL-X ?
- n=yc=[z:z', ...]
- r=[z'':z''', ...]
0:0.017 是否意味着“0”是属于该集群的文档 ID?
我已经在 mahout wiki 页面上阅读了 CL、n、c 和 r 的含义。但是有人可以更好地向我解释一下,或者指向一个更详细解释的资源吗?
抱歉,如果我问一些愚蠢的问题,但我是一个新手,使用 apache mahout 并将它用作我的集群课程作业的一部分。