我正在做一个简单的任务:遍历所有顶点并根据其邻居的属性计算新属性。我搜索了 SO,到目前为止,我知道至少有三种方法可以做到:
- 使用 ad_adj_list 创建一个 adj 列表,然后遍历每个元素;
- 使用 sapply 直接迭代每个顶点。
但是,对于我的数据量(300k 个顶点和 800 万条边)来说,这两种方法都花费了太长时间。有没有快速循环顶点的方法?谢谢!
对于基准测试,假设我有以下示例数据:
set.seed <- 42
g <- sample_gnp(10000, 0.1)
V(g)$name <- seq_len(gorder(g)) # add a name attribute for data.table merge
V(g)$attr <- rnorm(gorder(g))
V(g)$mean <- 0 # "mean" is the attribute I want to compute
方法 1. 的代码是:
al <- as_adj_list(g)
attr <- V(g)$attr
V(g)$mean <- sapply(al, function(x) mean(attr[x]))
# took 28s
# most of the time is spent on creating the adj list
方法 2. 的代码是:
compute_mean <- function(v){
mean(neighbors(g, v)$attr)
}
V(g)$mean <- sapply(V(g), compute_mean) # took 33s
我相信 igraph-R 在顶点交互方面不应该这么慢,否则,这将使分析数百万大小的大型图成为不可能,我认为这对 R 用户来说应该很常见!
更新
根据@MichaelChirico的评论,现在我想出了第三种方法:将图形结构导入data.table并使用data.tableby
语法进行计算,如下:
gdt.v <- as_data_frame(g, what = "vertices") %>% setDT() # output the vertices
gdt.e <- as_data_frame(g, what = "edges") %>% setDT() # output the edges
gdt <- gdt.e[gdt.v, on = c(to = "name"), nomatch = 0] # merge vertices and edges data.table
mean <- gdt[, .(mean = mean(attr)), keyby = from][, mean]
V(g)$mean <- mean
# took only 0.74s !!
data.table方式要快得多。但是,其结果与前两种方法的结果并不完全相同。另外,看到这么简单的任务还得依赖另外一个包,我也很失望,我认为这应该是igraph-R的强项。希望我错了!