我需要对一组二维数据进行一些聚类分析(我可能会在此过程中添加额外的维度)。
分析本身将形成输入可视化的数据的一部分,而不是输入到另一个过程(例如径向基函数网络)。
为此,我想找到一组主要“看起来正确”的集群,而不是阐明一些隐藏的模式。
我的直觉是,k-means将是一个很好的起点,但是找到合适数量的集群来运行算法是有问题的。
我要解决的问题是:
如何确定 k的“最佳”值, 以使形成的集群稳定且可视觉验证?
问题:
- 假设这不是 NP 完全的,那么找到一个好的k的时间复杂度是多少。(可能以运行 k-means 算法的次数报告)。
- k-means 是这类问题的一个很好的起点吗?如果是这样,您会推荐哪些其他方法。一个由轶事/经验支持的具体例子是 maxi-bon。
- 您会推荐哪些捷径/近似值来提高性能。