-1

我知道 k-means 算法是迭代的。如果我们想使用 MapReduce 运行它,则必须在每次迭代中重新加载和重新处理整个输入数据,这会增加通信成本。但我的问题是 DBSCAN 和 SCAN 是否也像 k-means 和 k-medoid 一样迭代?

4

1 回答 1

1

如果您的问题是重新加载,也许您可​​以尝试使用 Spark,它允许缓存中间结果,与 Hadoop MapReduce 相比,可以减少处理数据的时间。

DBSCAN 需要几乎每个节点的邻居的计算,当我们谈论大数据时,这实际上是相当昂贵的。

在这样的系统上很好地实现 DBSCAN 确实很复杂,这里已经使用 Spark 完成了。但是,我确实相信迭代算法在使用 Spark 时比 DBSCAN 等其他算法更有效。

于 2015-03-11T13:57:57.767 回答