我想在具有数百万条边和节点的巨大无向图中进行图聚类。图几乎是由不同的集群组成的,仅由一些节点(一种可以与多个集群相关的模糊节点)连接在一起。两个集群之间将有很少或几乎没有边。这个问题几乎类似于找到一个图的顶点切割集,除了一个例外,图需要被划分成许多组件(它们的数量是未知的)。(参考这张图片https://docs.google.com/file/d /0B7_3zLD0XdtAd3ZwMFAwWDZuU00/edit?pli=1 )
它几乎就像不同的强连接组件在它们之间共享几个节点,我应该删除这些节点以分离那些强连接组件。边是加权的,但这个问题更像是在图中寻找结构,所以边权重不相关。(考虑这个问题的另一种方法是可视化实体球体在某些点相互接触,球体是那些强连接的组件,接触点是那些模棱两可的节点)
我正在做一些原型设计,所以我没有时间自己学习图聚类算法并选择最好的。另外,我需要一个解决方案来切割节点而不是边缘,因为在我的情况下,不同的集群共享节点而不是边缘。
是否有任何研究论文、博客可以解决这个或一些相关的问题?或者任何人都可以想出一个解决这个问题的方法,无论多么肮脏。
由于涉及数百万个节点和边缘,我需要解决方案的MapReduce实现。任何输入,链接呢?
我可以直接使用 MapReduce 中的任何当前开源实现吗?
我认为这个问题类似于通过删除顶点来寻找在线社交网络中的社区。