mapreduce - 迭代算法

Question

我知道 k-means 算法是迭代的。如果我们想使用 MapReduce 运行它，则必须在每次迭代中重新加载和重新处理整个输入数据，这会增加通信成本。但我的问题是 DBSCAN 和 SCAN 是否也像 k-means 和 k-medoid 一样迭代？

score 1 · Accepted Answer

如果您的问题是重新加载，也许您可以尝试使用 Spark，它允许缓存中间结果，与 Hadoop MapReduce 相比，可以减少处理数据的时间。

DBSCAN 需要几乎每个节点的邻居的计算，当我们谈论大数据时，这实际上是相当昂贵的。

在这样的系统上很好地实现 DBSCAN 确实很复杂，这里已经使用 Spark 完成了。但是，我确实相信迭代算法在使用 Spark 时比 DBSCAN 等其他算法更有效。

1 回答 1