r - 降低算法的复杂性，从满足给定约束的无向图构造有向图 (DAG)

Question

我有一个包含 4,000 多个节点的网络，并且我有一个边列表（节点对之间的连接）。所有节点都应该收敛到一个中心点，但我无法对节点进行排序，因为它们没有以重新排序可行的方式编号或标记。

我需要什么？：根据所附的小例子，我需要所有节点都指向节点 F（F 可以从所有节点到达），这样无向图就变成了有向图（DAG），并且作为一个限制，只有每个节点对之间的一条边。当且仅当要删除循环（例如 A -> B，B <- A）时，我才被允许删除边缘。我也不能添加边，因为这是一个真实的网络，我不能在不存在的地方创建连接。

我所拥有的是：

 library(igraph)
 library(tidygraph)
 library(ggraph)
 library(tidyverse)

 # edge list
 edgelist <- tribble(
  ~from, ~to,
  "A", "B",
  "A", "C",
  "B", "D",
  "C", "D",
  "C", "E",
  "D", "E",
  "D", "F")
 
 # create the graph
 g <- as_tbl_graph(edgelist)
 
 # undirected graph 
 g %>% 
  ggraph(layout = "graphopt") +
  geom_edge_link() +
  geom_node_point(shape = 21, size = 18, fill = 'white') +
  geom_node_text(aes(label = name), size = 3) +
  theme_graph()

这是我提出的排序过程，以便边缘列表成为 DAG：

 s <- names(V(g))
 
 # define node objective
 target <- "F"
 
 # exclude target from vertex list
 vertex_list <- s[s != target]
 
 # calculate the simple path of each node to the destination node (target)
 route_list <- map(vertex_list, ~ all_simple_paths(graph = g, 
                                                   from = .x,
                                                   to = target)) %>% 
  set_names(vertex_list) %>% 
  map(~ map(., ~ names(.x))) %>%
  flatten() %>% 
  map(~ str_c(.x, collapse = ","))
 
 
 # generate the list of ordered edges
 ordered_edges <- do.call(rbind, route_list) %>% 
  as.data.frame(row.names = F) %>%  
  set_names("chain") %>% 
  group_by(chain) %>% 
  summarise(destination = str_split(chain, ","), .groups = "drop") %>% 
  mutate(
   
   from = map(destination, ~ lag(.x)) %>% 
    map(~ .x[!is.na(.x)]),
   
   to = map(destination, ~ lead(.x)) %>% 
    map(~ .x[!is.na(.x)]),
  ) %>% 
  
  select(from, to) %>% 
  unnest(cols = everything()) %>% 
  group_by(across(everything())) %>% 
  summarise(enlaces = n(), .groups = "drop") %>% 
  select(-enlaces)

警告：当节点的数量达到一定大小（比如说 90）时，该算法会生成使图形非循环的循环，因此我要做的另一个过程是在 Python 中应用一个函数，调用该函数feedback_arc_set来删除将使图是一个 DAG。

为简单起见，我没有包含删除这些循环的必要代码，因为在这个特定示例中没有生成循环。

 # draw the graph again
 as_tbl_graph(ordered_edges) %>% 
  ggraph(layout = "graphopt") +
  geom_edge_link(arrow = arrow(length = unit(3, 'mm'),
                               type = "closed", 
                               angle = 30),
                 end_cap = circle(7, 'mm')) +
  geom_node_point(shape = 21, size = 18, fill = 'white') +
  geom_node_text(aes(label = name), size = 3) +
  theme_graph()

^{由reprex 包于 2021-07-07 创建 (v2.0.0 )}

那么问题出在哪里？：节点数大于2000时算法的复杂度

如果我尝试使用 2000 个节点来执行此操作，则算法永远不会结束。我让它运行了 24 小时，但没有完成。事实上，我没有找到一种方法来知道它是否有效。在这个地方我发现 {igraph} 的函数在all_simple_paths后台使用了 DFS，但是复杂度是 O (|V|!) 其中 |V| 是顶点数，|V|! 是顶点数的阶乘。

有没有办法以较低的复杂性做到这一点？

score 1 · Accepted Answer

没有办法避免做 DFS。然而，问题不是由于 DFS 算法的复杂性。我可以在不到一秒的时间内对包含 403,394 个节点和 3,387,388 个链接的图表进行 DFS https://github.com/JamesBremner/PathFinder2/wiki/Performance

可能的问题是您的算法需要执行大量的 DFS。

我建议使用以下算法，它应该在一秒钟左右运行一个中等大小的图形，例如 4,000 个节点。

您需要做的第一件事是检查是否可以从 F 访问每个节点。从 F 开始的单个 DFS 会告诉您这一点。如果每个节点都不可达，那么不添加边就无法解决问题。

现在，遍历路径以确定每个链接应该具有的方向。请注意，任何未遍历的边都是不必要的，可以删除 - 从而防止“意外”引入循环

请注意，如果您有一个体面的 DFS 实现，允许您指定访问者，您可以一步完成，在 DFS 进行时标记边缘的方向。剩下的就是删除没有被访问过的不必要的边。然后整个事情将在 4,000 个节点图上快速运行。

===

对快速解决此问题的应用程序有兴趣吗？在 MSWindows 机器上运行，用 C++17 编写，基于PathFinder类，保证性能 > 1,000 个节点/秒？

score 1 · Accepted Answer

快速回答

distances实际上，您可以根据to将顶点分成组"F"，然后检查两个相邻组的节点之间的邻域以添加边。

背后的想法

关于到的距离"F"，这个想法来自以下事实：

如果一个节点是距离d，那么它的父节点必须是距离d+1。
如果X是带距离d+1的，那么带距离的节点d必须是X当且仅当它们是的邻居时的子节点X。

我的尝试

D <- distances(g)
d <- distances(g, "F")
lst <- split(colnames(d), d)
lst <- lst[order(as.integer(names(lst)))]
res <- c()
for (k in head(seq_along(lst), -1)) {
    pre <- lst[[k]]
    nxt <- lst[[k + 1]]
    for (p in pre) {
        dp <- D[p, nxt, drop = FALSE]
        if (any(dp == 1)) {
            res[[length(res) + 1]] <- data.frame(
                from = colnames(dp)[dp == 1],
                to = p
            )
        }
    }
}
dag <- graph_from_data_frame(do.call(rbind, res))

然后

plot(dag)

给

r - 降低算法的复杂性，从满足给定约束的无向图构造有向图 (DAG)

2 回答 2

快速回答

背后的想法

我的尝试

Related

Reference