问题标签 [revolution-r]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何拆分数据框并在其上并行运行自定义功能?
我有一个大约 25L 行的大型数据集,其中应用了这个函数“状态”。它是一个标记程序。在 fn 内部,操作被矢量化并使用应用函数。c1-c4 是我数据中的列。执行 fn 仍然需要大约 5-6 小时。
有什么办法可以进一步加快fn. 我在一个有 16 个内核的服务器上工作。所以我相信它可以进一步加速。
r - 在 Windows 上将英特尔的数学内核库 (MKL) 链接到 R
为 R 使用替代 BLAS 有几个优点,请参见例如https://cran.r-project.org/web/packages/gcbd/vignettes/gcbd.pdf。
Microsoft R Open https://mran.revolutionanalytics.com/documents/rro/installation/#sysreq正在使用英特尔的 MKL 而不是默认的参考 BLAS 来加速计算。
我的问题是:
将英特尔的 MKL 库**手动链接到 R** 在 Windows 上的最新版本(https://cran.r-project.org/bin/windows/base/ )的确切步骤是什么?
更新 20-07-2016: 这里是关于如何为 R ≥ 3.3.0 为 Windows 的 64 位 R 构建基于 OpenBLAS 的 Rblas.dll 的非常详细的描述:http ://www.avrahamadler.com/r-tips /build-openblas-for-windows-r64/
sql-server - RevoScaleR:rxPredict,参数个数与变量个数不匹配
我使用 Microsoft 的“ Data Science End to End Walkthrough ”为自己设置了 R Server,他们的示例运行良好。
该示例(纽约出租车数据)使用非分类变量(即距离、出租车费等)来预测分类变量(1 或 0 表示是否支付了小费)。
我正在尝试使用分类变量作为输入,使用线性回归(rxLinMod 函数)来预测类似的二进制输出,并且出现错误。
该错误表明参数的数量与变量的数量不匹配,但在我看来,number of variables
实际上是每个因子(变量)内的级别数。
复制
在 SQL Server 中创建一个名为 example 的表:
将数据放入其中:
我还使用了一个 SQL 函数,它以表格式返回变量,因为这就是 Microsoft 示例所需要的。创建函数formatAsTable
:
我们现在有一个包含两个分类变量的表 -Person
和City
。
让我们开始预测。在 R 中,运行以下命令:
现在,建立线性回归模型。
查看模型对象:
请注意,它看起来像这样:
它说有 11 个变量,这很好,因为这是因子中水平的总和。
现在,当我尝试Bin
基于City
and预测值时Person
,我得到一个错误:
首先我格式化City
并且Person
我想预测为一个表格。然后,我预测将其用作输入。
如果您检查该pred
对象,它看起来与预期的一样:
现在,当我尝试预测时,我得到了一个错误。
错误说:
我可以看到 11 来自哪里,但我只为预测查询提供了 2 个值 - 所以我看不到 3 来自哪里,或者为什么会出现问题。
任何帮助表示赞赏!
r - 使用 RevoScaleR 每组的行数
我正在转换本地 R 脚本以使用RevoScaleR
Revolution-R(又名 Microsoft R 客户端/服务器)包中的功能。这是为了能够更好地处理大量数据。
目标是创建一个新列,为每组的行编号。使用data.table
以下代码可以实现这一点:
出于说明目的,输出如下所示:
在使用 -functions 进行一些研究后,rx
我找到了 package dplyrXdf
,它基本上是一个dplyr
在存储数据上使用函数的包装器Xdf
,同时仍然受益于RevoScaleR
(参见http://blog.revolutionanalytics.com/2015/10 /using-the-dplyrxdf-package.html )
就我而言,这将导致以下结果:
但是,这会导致以下错误:
任何想法如何解决这个错误?或其他(更好的?)方法来获得请求的结果?