是否可以使用 R 的并行处理功能执行 CLARA 聚类(通过采样完成围绕中心点的聚类)?我在 8 个维度上有大约 150000 个点,所以我需要对样本进行聚类,否则我世界上没有足够的处理能力来聚类这个。
现在,我正在使用带有双核处理器(2,4 GHz Intel Core 2 Duo)的 iMac,所以我假设我可以使用它来加快计算速度。由于有很多点,我需要对聚类算法进行多次迭代,以找到最佳的聚类数量和最佳样本大小(尽管经过几次实验,即使样本小到 3000,结果似乎也是与更大的样本一样好)。但是,当样本量接近 5000 时,计算速度会减慢到几天。
在最新版本的 R 中执行此操作的最佳方法是什么?我读过那里已经内置了并行处理功能(foreach,并行包)。但是 CLARA 函数是原子的,因为它很难修改其内部代码以开启并行处理(至少对我来说是这样)。
因此,理想情况下,我希望并行运行 CLARA 函数的内部代码,而不是并行运行具有不同参数的该函数的迭代。