我正在尝试与 K-Means 一起实现 Canopy 聚类算法。我在网上做了一些搜索,说要使用 Canopy 聚类来让您的初始起点输入 K-means,问题是,在 Canopy 聚类中,您需要为 Canopy 指定 2 个阈值:T1 和 T2,其中内部阈值中的点与该树冠密切相关,而较宽阈值中的点与该树冠的相关性较小。这些阈值或距树冠中心的距离是如何确定的?
问题背景:
我要解决的问题是,我有一组数字,例如 [1,30] 或 [1,250],其设置大小约为 50。可以有重复的元素,它们也可以是浮点数,例如as 8, 17.5, 17.5, 23, 66, ... 我想找到最优的簇,或一组数字的子集。
因此,如果使用 K-means 进行 Canopy 聚类是一个不错的选择,那么我的问题仍然存在:您如何找到 T1、T2 值?如果这不是一个好的选择,是否有更好、更简单但有效的算法可供使用?