我现在正在阅读《数据挖掘:实用机器学习工具和技术第三版》一书。在 4.8 节中,它讨论了如何使用k-d trees
或ball trees
提高k-means algorithm
.
在用所有数据点构建球树之后,它会搜索所有叶节点以查看其中的点各自靠近哪个预先选择的聚类中心。它说有时由更高的内部节点表示的区域完全落在单个集群中心的域内。这样我们就不需要遍历它的子节点,所有的日期点都可以一次处理。
问题是,在实现数据结构和算法时,如何判断指向内部节点的区域是否落入单个簇中心?
在二维或三维空间中,这并不难。我们可以看到集群中心中每一对的所有中垂线是否都穿过指向内部节点的区域。
但是在更高维空间中,如何识别呢?有没有通用的方法?