问题标签 [revoscaler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - RxCrossTable:转换不起作用
我正在做这个练习,我找不到错误。
该数据是纽约出租车数据集(mht_lab2.zip
在Github上)的子样本。
在这个当前的练习中,我应该在不使用rxDataStep
. 因此我这样做了:
但是它返回给我一个错误:
我尝试使用transformObjects
, transforms
-argument 并尝试使用组合。它始终返回错误。
r - RStudio - RevoScaleR (Windows)
这个包可以用于(1)RStudio Desktop/Open;和/或 (2) RStudio Server(也使用 SQL Server 2017 Enterprise)?
我主要对 RStudio Desktop 感兴趣,但是经过大约一小时的研究后,似乎无法在网上找到任何东西。
尝试在 RStudio Desktop 中安装软件包时,我收到错误消息:
提前致谢。
r - rxDataStep 未能在 SQL Server 表中加载数据
我试图在一些转换后将 SQL 查询结果加载到新表中。但即使是最简单的脚本也失败了。
当我用 1M 行运行它时,它运行但无法用 2M 行写入。虽然 RevoScaleR 函数以块的形式处理数据,但为什么有更多的行数是个问题?因为相同的查询 ger 会导致 SQL 服务器。最大内存百分比也分配给 50 个 32 GB RAM。
r - 缩短 R 中函数调用的长度 - revoScaleR rxGLM()
我目前正在使用 R 在大型数据集上创建一些 GLM 模型。由于它的大小,我在 revoScaleR 包中使用了 rxGlm() 函数——它的运行速度比基本的 glm() 函数快得多。
我将所有函数调用保存在 R 脚本中,以便以后可以重现我的工作 - 审计跟踪等。
我的函数调用很长,因为我有很多因素(~50)。它们看起来都像这样:
如果之后,我想重新运行模型拟合,但可能只对公式稍作改动——通常一次删除一个因子——是否有任何速记符号?目前我正在将函数调用复制并粘贴到我的脚本文件中并手动删除单行。是否有某种语法说:
“请使用与上次完全相同的 GLM,但删除因子 13”?
它会使我的脚本文件更短。我现在有大约 3,000 行代码,我还没有完成!
谢谢。艾伦
r - 转换 xdf 文件中的列
请在此代码上建议将列“Rate”转换为名为“Home_new”的因子
我做错了什么?
parallel-processing - 来自 RevoScaleR 的 rxExec 不会发生并行处理
使用 SQL Server 2016 R Services(数据库内)测试 RevoScaleR 包带来的并行处理。按照 Microsoft 在此处提供的示例https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/r-tutorial-custom-r-functions?view=sql-server-2016。但是,不像文档中声称的那样,我没有看到并行性发生。有谁知道为什么?
SQL Server 是在本地安装的,有 8 个内核。在示例之上进行的唯一额外设置是:
为 rxExec 设置 elemType = 'cores'。
为 RxInSqlServer 设置 consoleOutput = TRUE。
我在 T-SQL 中的测试脚本是:
8 次运行显然是根据控制台输出顺序执行的:
r - 适用于 Microsoft R Open 3.5.3 的 RevoScaleR 包
我尝试RevoScaleR
在 Microsoft R Open 3.5.3 中安装该软件包,但收到消息
“包 'RevoScaleR' 不可用(对于 R 版本 3.5.3)”
我想这已经足够清楚了。有没有办法解决?还是我只需要退回到早期版本的 MRO 才能让它工作?我需要使用该rxGlm()
函数,因为标准glm()
函数无法处理我正在使用的数据(大小和复杂性)。
谢谢
r - 使用 relevel() 并在 R 中拟合 GLM 后恢复到先前的因子排序
一个令人费解的问题,我不确定我是否尽可能简洁地表达它,但是......
我处于想要拟合多元广义线性模型的位置 - 由于我的模型的大小和复杂性,我不得不rxGlm()
从RevoScaleR
包中使用而不是内置glm()
函数。
重要的是模型中的每个因素都有我选择的参考水平,我relevel()
当然可以使用它来设置。然而,这里令人讨厌的是因子水平被重新排序,因此它使 GLM 模型输出难以使用。出于演示目的,我希望能够在拟合模型后检索原始因子水平排序。
一个简单的例子:
这给
这两个因素在这里按字母顺序排列,因此参考水平是country = Australia
, degree = N
。假设我希望我的参考水平为country = Belgium
, degree = Y
。我可以这样做,然后重新运行模型:
这现在给出了相同的模型,但呈现方式不同:
这些是我想要的系数,但现在排序错误。有没有一种简单的方法可以使用我在命令之前的因子排序来重新排列这个项目relevel()
?
谢谢你。
sql - SQL Server + data.table + rxDataStep 中带有 R 脚本的分位数汇总
我正在 SQL Server 中运行一个脚本,该脚本通过 rxDataStep 分块计算分位数和一些其他“自定义”指标。
出于某种原因,我在汇总后不断获得超过 1 个“STEP_IN”值,而不是按预期获得每个组中的 MAX 值。我相信之所以如此,是因为 rxDataStep 在处理时“分块”数据的方式。我的印象是解决方案位于我的 transformFunc (quant_func) 中的某个地方,尽管有分块,但可能缺少一个 for 循环来准确选择 max(STEP_IN),但我不知道如何实现它......任何帮助都是非常感激。
PS1:我使用 rxDataStep 因为有超过 10 亿行要读取,所以它不适合内存。
PS2:我正在使用 data.table 库,因为到目前为止,与 base r 和/或 dplyr 相比,它的性能最好。
更新:当输入数据中的行数 <= 我在 rxDataStep 中设置的 rowsPerRead(500000) 值时,我的代码工作得很好。所以很明显,问题出在分块上。只需要知道如何在我的 TransformFunc 中处理该行为。