r - dplyr/dbplyr：sql 表 vs df 速度

翻译自：https://stackoverflow.com/questions/49933564 2018-04-20T03:36:29.727

399 次

我目前正在用dplyr编写一个函数来进行计算。当我输入一个tbl_sql对象时，该函数变得非常慢，但当我输入一个data.frame时却相当快。

一个例子，

df = data.frame(
  a = rnorm(1000000),
  b = rnorm(1000000),
  c = rep(1:5, 2000000),
  d = rep(1:10, 1000000)
)
library(dplyr)
library(MonetDBLite)
library(DBI)
mydb = dbConnect(MonetDBLite())
dbWriteTable(mydb, "df", df, overwrite = T)
dfdb = tbl(mydb, "df")

f = function(d, loc = F){
  d = d %>% mutate(i = a*b, ii = a/b)
  d2 = d %>% group_by(d) %>% summarise(sum(i)) %>% rename(k = d)
  d3 =  d %>% group_by(c) %>% summarise(sum(ii)) %>% rename(k = c)
  d4 = inner_join(d2, d3, by = "k")
  print(d4)
}

system.time(f(df))不到 1 秒。（数据帧）

system.time(f(dfdb))大约需要 2 秒。(tbl_sql)

我当前的函数更长，输入的数据也更大，（data.frame）结果比（tbl_sql）对象快10倍以上。

这是为什么？谁能解释一下。

r - dplyr/dbplyr：sql 表 vs df 速度

0 回答 0

Related

Reference