-1

我使用 EM clusterer 对 43574 个时间序列进行了聚类。输出是 24 个集群。我在这里有一些问题。首先,处理 24 个集群实际上有用吗?是不是太多了?如果我将结果传递给神经外科医生,为了管理患者而标记这些集群,这会起作用吗?我最重要的问题是,如下所示,几个集群的可能性为 0%?!这意味着什么?那为什么它们在不同的集群中?任何帮助将不胜感激,这就是我得到的:

0 1892 ( 4%) 1 5153 ( 12%) 2 1594 ( 4%) 3 1221 ( 3%) 4 122 ( 0%) 5 2714 ( 6%) 6 7092 ( 16%) 7 141 ( 0%) 8 166 ( 0%) 9 464 ( 1%) 10 3331 ( 8%) 11 4316 ( 10%) 14 2411 ( 6%) 15 2573 ( 6%) 17 3063 ( 7%) 18 142 ( 0%) 19 4211 ( 10 %) 20 925 ( 2%) 21 2038 ( 5%) 22 5 ( 0%)

4

1 回答 1

0

这些值不是可能性,而是大小

data=array([1892, 5153, 1594, 1221, 122, 2714, 7092, 141, 166,
  464, 3331, 4316, 2411, 2573, 3063, 142, 4211, 925, 2038, 5])

for f in data * 100. / sum(data): print "%.1f%%" % f,

产生以下具有额外精度的相对簇大小:

4.3% 11.8% 3.7% 2.8% 0.3% 6.2% 16.3% 0.3% 0.4% 1.1% 7.6% 9.9%
5.5% 5.9% 7.0% 0.3% 9.7% 2.1% 4.7% 0.0%

这些都不是可能性。它是集群大小/数据集大小

于 2016-04-15T15:28:27.080 回答