r - 超大数据集的稀疏数据聚类

问问题 2015-11-06T20:17:09.063

453 次

0

我试过使用

kmeansparse，来自 sparcl 包（缺少内存错误）
Biganalytics 的 bigkmeans （奇怪的错误：在网上找不到任何东西；duplicated.default 中的错误（centers[[length(centers)]]) ：duplicated() 仅适用于向量）
来自 skmeans 的 skmean（与 kmeans 相似的结果）

但我仍然无法为我的稀疏数据获得正确的聚类。集群没有很好的定义，大部分都具有重叠的成员资格。在处理稀疏数据方面我是否遗漏了什么？建议对数据进行什么样的预处理？是否应将缺失值标记为 -1 而不是 0 以便清楚区分？如果您有任何可能有帮助的想法，请随时询问更多详细信息。

0 回答 0