0

我刚刚发现了这个,我有兴趣探索使用 SQL 存储来计算我的一些学习器输出。我认为数据库调用可能比基本 R 或 Python 快得多。

很棒的小插图: http ://cran.nexr.com/web/packages/tidypredict/vignettes/randomForest.html

基本代码:

require(pacman)
p_load(randomForest, tidypredict, dbplyr)

model <- randomForest(Species ~ .,data = iris ,ntree = 10, proximity = TRUE)
tidypredict_sql(model, dbplyr::simulate_mssql())

它为每棵树提供了 SQL 代码,然后我可以使用该模式聚合这些代码以获得估算器输出。

那么如何将它与 h2o.ai 之类的东西一起使用,尤其是 h2o.randomForest 之类的东西呢?

4

1 回答 1

1

在小插图中,数据来自本地 R 内存,模型是本地 R 模型(这可以从页面的中间位置推断出来parse_model(model)tidypredict_fit(model)。您所指的 SQL 组件仅用于以更易于阅读的格式显示模型。

根据您的问题,我了解到您想从 SQL 数据库中读取数据并使用 SQL 拟合模型。但是,从小插图来看,数据未存储在 SQL 中,并且模型未使用 SQL 拟合。

从(简要)研究 h2o.ai 看来,这是一个软件或平台,而不是数据库。dbplyr 提供从标准 dplyr 命令到数据库语言 (SQL) 的翻译。这允许您在 R 中编写操作并在数据库上翻译和执行它们,而无需将信息拉入本地 R 内存。

我编写了可以处理本地或数据库表作为输入的 R 函数。但这需要一些深思熟虑的设计选择。因此,虽然您可能能够将远程 dbplyr 表传递给 h2o.ai 模型,除非底层函数是用 R 编写的并且以与 dbplyr 转换一起使用的方式编写,否则我希望模型会出错。

如果商业 AI 软件没有内置的访问数据库的方式,这将是非常令人惊讶的。因此,调查 h2o.ai 如何推荐摄取数据可能会更有效。

于 2021-08-01T21:58:50.690 回答