问题标签 [revolution-r]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
71 浏览

r - 如何拆分数据框并在其上并行运行自定义功能?

我有一个大约 25L 行的大型数据集,其中应用了这个函数“状态”。它是一个标记程序。在 fn 内部,操作被矢量化并使用应用函数。c1-c4 是我数据中的列。执行 fn 仍然需要大约 5-6 小时。

有什么办法可以进一步加快fn. 我在一个有 16 个内核的服务器上工作。所以我相信它可以进一步加速。

0 投票
3 回答
9136 浏览

r - 在 Windows 上将英特尔的数学内核库 (MKL) 链接到 R

为 R 使用替代 BLAS 有几个优点,请参见例如https://cran.r-project.org/web/packages/gcbd/vignettes/gcbd.pdf

Microsoft R Open https://mran.revolutionanalytics.com/documents/rro/installation/#sysreq正在使用英特尔的 MKL 而不是默认的参考 BLAS 来加速计算。

我的问题是:

将英特尔的 MKL 库**手动链接到 R** 在 Windows 上的最新版本(https://cran.r-project.org/bin/windows/base/ )的确切步骤是什么?


更新 20-07-2016: 这里是关于如何为 R ≥ 3.3.0 为 Windows 的 64 位 R 构建基于 OpenBLAS 的 Rblas.dll 的非常详细的描述:http ://www.avrahamadler.com/r-tips /build-openblas-for-windows-r64/

0 投票
3 回答
1386 浏览

sql-server - RevoScaleR:rxPredict,参数个数与变量个数不匹配

我使用 Microsoft 的“ Data Science End to End Walkthrough ”为自己设置了 R Server,他们的示例运行良好。

该示例(纽约出租车数据)使用非分类变量(即距离、出租车费等)来预测分类变量(1 或 0 表示是否支付了小费)。

我正在尝试使用分类变量作为输入,使用线性回归(rxLinMod 函数)来预测类似的二进制输出,并且出现错误。

该错误表明参数的数量与变量的数量不匹配,但在我看来,number of variables实际上是每个因子(变量)内的级别数。

复制

在 SQL Server 中创建一个名为 example 的表:

将数据放入其中:

我还使用了一个 SQL 函数,它以表格式返回变量,因为这就是 Microsoft 示例所需要的。创建函数formatAsTable

我们现在有一个包含两个分类变量的表 -PersonCity

让我们开始预测。在 R 中,运行以下命令:

现在,建立线性回归模型。

查看模型对象:

请注意,它看起来像这样:

它说有 11 个变量,这很好,因为这是因子中水平的总和。

现在,当我尝试Bin基于Cityand预测值时Person,我得到一个错误:

首先我格式化City并且Person我想预测为一个表格。然后,我预测将其用作输入。

如果您检查该pred对象,它看起来与预期的一样:

现在,当我尝试预测时,我得到了一个错误。

错误说:

我可以看到 11 来自哪里,但我只为预测查询提供了 2 个值 - 所以我看不到 3 来自哪里,或者为什么会出现问题。

任何帮助表示赞赏!

0 投票
3 回答
861 浏览

r - 使用 RevoScaleR 每组的行数

我正在转换本地 R 脚本以使用RevoScaleRRevolution-R(又名 Microsoft R 客户端/服务器)包中的功能。这是为了能够更好地处理大量数据。

目标是创建一个新列,为每组的行编号。使用data.table以下代码可以实现这一点:

出于说明目的,输出如下所示:

在使用 -functions 进行一些研究后,rx我找到了 package dplyrXdf,它基本上是一个dplyr在存储数据上使用函数的包装器Xdf,同时仍然受益于RevoScaleR(参见http://blog.revolutionanalytics.com/2015/10 /using-the-dplyrxdf-package.html )

就我而言,这将导致以下结果:

但是,这会导致以下错误:

任何想法如何解决这个错误?或其他(更好的?)方法来获得请求的结果?