在 dbConnect 的帮助下,与 SQL DB(例如 DB1 和 DB2)建立了多个连接。如何编写涉及 DB1 和 DB2 表的查询?dbGetQuery 是否允许只查询一个数据库?建立数据库连接后可以利用 sqldf 包吗?
问问题
1293 次
1 回答
0
这不是您要寻找的答案,但我遇到了同样的问题。
简而言之,我会放弃在 SQL 中的 1 个(或更多)数据库中的表之间进行任何连接/分组/子查询的想法。使用 R 中较新的大数据包,特别是使用 dplyr 或 data.table,几乎不需要。我能想到的唯一例外是 SQL 更快的地方是当您的查询结果大到足以占用太多 RAM 时。
对我来说,一个有趣的用例如下:来自 MPP 数据库的表大约有 20B 行。问题:查询整个 2M 行的结果集,并使用 dplyr::group_by() 对 3 个变量进行分组,或者只是在 SQL 中执行 GROUP BY 以返回 100k 行的最终结果。
在时间方面,总是存在 R 或 SQL 更快的临界点,除了可能在 MySQL 中连接维度表之外,R 几乎总是在所有方面都更快。(我的例子是我的硬件的临界点。)
dplyr 像 SQL 一样易于使用,我不确定我们是否需要再问这个问题。
于 2014-04-01T23:55:50.873 回答