1

我在患者数据集上应用了 k-mean、k-medoid 和 DBSCAN 等聚类算法。对于每个算法,RapidMiner 生成了集群模型(质心表和图表等)和集群集(显示哪些示例属于哪个集群)。现在我想要一些方法,当一个新病人来时,我想根据以前训练的模型为他分配一个集群。我对这样做的方式感到困惑..是这样的吗,我可能错了

对于新患者的每个属性值 - 来自质心表的属性值将患者属性的所有差异相加并取平均值。

然后为他分配相对于该患者的平均值最小的集群。

如果这是正确的方法,那么我将如何重新聚类,即当有新患者来时,我们的算法正在为他分配聚类,这很卑鄙。质心移动,然后我必须在每次插入记录时重新聚类。如何在我的场景中处理这个?

4

1 回答 1

0

如果您想将它们应用于流,请查看在线聚类算法。

存在诸如在线 k-means 变体之类的东西。

通常,您确实确实希望避免重新聚类所有现有示例,因为这不适用于无限数据流和有限内存。

通常最好不要尝试获得与运行经典聚类算法完全相同的结果,而是要学会忍受一些错误。毕竟,所有这些算法无论如何都只是启发式算法。只要你的近似是好的,近似启发式就没有错。

于 2013-07-08T16:50:42.110 回答