1

我正在尝试在 MR 上实现 DBSCAN,并使用下面粘贴的链接中的直觉

http://codingwiththomas.blogspot.com/2012/05/distributed-dbscan-intuition.html

实现查询 MongoDB 数据库的 DBSCAN 算法的最佳编程语言?

我的问题是如何计算初始距离矩阵。我不想仅仅为了计算距离矩阵并将其存储在内存中而运行 hadoop 作业,因为我不会是一个好的设计。有什么建议么。

4

1 回答 1

1

感谢您阅读我的博客。

是的,要计算的距离矩阵非常困难。

我已经应用了一个 minhash 聚类(mahout 也有一个实现)来查找非常相似的向量。因此,您不必计算整个距离矩阵,而是计算相似向量的距离矩阵。

所以我对你的建议是使用 mahout 的 minhashing 来查找相似向量的集群。然后为它们计算一个较小的距离矩阵,然后应用我在帖子中写的其余要点:

  • 从“迷你”集群中提取相邻点
  • 从结果图中运行一个连通分量算法(有 MapReduce、Giraph 和 Hama 的实现)

所以基本上就是这样。不幸的是,这整个阶段都无法开源,所以这就是整个过程所需要的。

于 2013-04-07T14:50:27.933 回答