dplyr
功能通常具有令人难以置信的性能,已由开源 R 社区进行了优化,许多功能甚至c++
在引擎盖下运行以使它们更快。
BigQuery 代码是否通过bigrquery
并dbplyr
接收任何优化生成,或者它是否只是生成 sql 但它可以(未优化)?(请注意,bigrquery
and 和dbplyr
likedplyr
也是 tidyverse 包,均由 dplyr 的作者 Hadley Wickham 编写)
背景
我对生成的 BigQuery 代码的优化程度很感兴趣,因为我试图决定是否值得进一步优化一些写入的批处理过程并bigrquery
手动重写一些 BigQuery 代码(而不是使用这些包)。如果我不太可能看到巨大的性能改进,我不会花时间这样做。dbplyr
示例查询
以下内容来自自述bigrquery
文件
library(dplyr)
natality <- tbl(con, "natality")
natality %>%
select(year, month, day, weight_pounds) %>%
head(10) %>%
collect()