2

这是我关于 Stack Overflow 的第一个问题。这不是一个真正的编程问题,但由于我们大多数人在某些时候都必须处理理论问题,而且周围可能有一些图论专家,我想我可以试一试。

我目前正在对多语言网站进行一些研究,并在网站结构中发现了一些有趣的模式。下图是两个不同的多语言网站的网站图。抱歉,我没有足够的代表点来发布图片,所以我将它们保留为链接。我使用 Force Atlas 算法进行布局。顶点根据页面语言着色。阴影区域对应于特定语言的子图。

这是网站的图表,其中相同内容的不同语言版本非常紧密地联系在一起。因此,代表不同语言版本的平面是重叠的。

http://www.ai.soc.i.kyoto-u.ac.jp/~julien/phd/images/tight.png

在第二张图中,我们有一个网站,其中网站的语言版本几乎是独立的,因此我们几乎没有重叠。

http://www.ai.soc.i.kyoto-u.ac.jp/~julien/phd/images/loose.png

所以这是我的问题:

是否有特定的指标来量化这种重叠?如果有,它叫什么名字?

由于我使用了基于力的布局,因此语言子图之间的边数。所以我想像取子图中的边数与进入特定子图的外部/进入的边数之比这样的方法可能会奏效。我确信我不是第一个得到这个想法的人,所以我想知道这个指标是否有名字。然后我可以从那里谷歌它:)

先感谢您!

4

2 回答 2

3

听起来您正在寻找的是Network Modularity。给定一个图和一个分区(将图分成不相交的子图),模块化定义为:

如果边是随机分布的,则落在给定组内的边的分数减去预期的此类分数。

模块化是网络上一些第一个社区检测算法的基础,它试图找到密集连接的节点集。最近,模块化已被证明是社区检测的一个糟糕指标,尽管因为分辨率限制无法检测到小群体或在某些情况下分解明确定义的群体(参见本文)。

于 2011-07-20T14:04:20.747 回答
1

现在除了模块化还有其他方法,旨在克服工作中提到的限制,例如惊喜;或 B 和C 分数(设计为显着性指标)。

于 2013-05-20T15:05:06.397 回答