我想对使用 python 和 scikits.learn 的最佳聚类技术提出一些建议。我们的数据来自表型微阵列,它可以测量细胞在各种底物上随时间的代谢活动。输出是一系列 sigmoid 曲线,我们通过拟合到 sigmoid 函数来提取一系列曲线参数。
我们希望使用固定数量的集群通过集群化“排名”此活动曲线。现在我们使用包提供的 k-means 算法,(init='random', k=10, n_init=100, max_iter=1000)。输入是一个矩阵,每个样本有 n_samples 和 5 个参数。样本的数量可能会有所不同,但通常约为数千(即 5'000)。聚类似乎有效且有效,但我希望能对不同方法或对聚类质量进行评估的最佳方式提出任何建议。
这里有几个图表可能会有所帮助:
输入参数的散点图(其中一些非常相关),单个样本的颜色与分配的集群相关。
从中提取输入参数的 sigmoid 曲线,其颜色与其分配的集群相关
编辑
下面是一些肘部图和每个簇数的轮廓得分。