-2

嗨,在过去的几天里,我遇到了一个小/大问题。

我有一个交易数据集,有 100 万行和两列(客户 ID 和产品 ID),我想将其转换为二进制矩阵。我使用了 reshape 和 spread 功能,但在这两种情况下,我都使用了 64mb 内存并且 Rstudio/R 出现故障。因为我只用了1个CPU,所以这个过程需要很多时间我的问题是,小数据和大数据之间的这种转变有什么新的进展?谁可以使用更多的cpu?

我搜索并找到了几个解决方案,但我需要专业意见

1 - 使用 Spark R?

2 - H20.ai 解决方案? http://h2o.ai/product/enterprise-support/

3 - 革命分析?http://www.revolutionanalytics.com/big-data

4 - 去云端?像微软天蓝色?

如果需要,我可以使用具有很多内核的虚拟机.. 但我需要知道进行此交易的流畅方式是什么

我的具体问题

我有这个data.frame(但有100万行)

Sell<-data.frame(UserId = c(1,1,1,2,2,3,4), Code = c(111,12,333,12,111,2,3))

我做到了:

Sell[,3] <-1

test<-spread(Sell, Code, V3)

这适用于一个小数据集.. 但是有 100 万行这需要很长时间(12 小时)并且会下降,因为我的最大内存是 64MB。有什么建议么?

4

2 回答 2

1

你不告诉你想对结果做什么,但创建这样一个矩阵的最有效方法是创建一个稀疏矩阵。

这是一个密集的类似矩阵的对象,它为所有这些NA值浪费了大量的 RAM。

test
#  UserId  2  3 12 111 333
#1      1 NA NA  1   1   1
#2      2 NA NA  1   1  NA
#3      3  1 NA NA  NA  NA
#4      4 NA  1 NA  NA  NA

您可以使用稀疏矩阵来避免这种情况,它在内部基本上仍然是一个长格式结构,但具有矩阵运算的方法。

library(Matrix)
Sell[] <- lapply(Sell, factor)
test1 <- sparseMatrix(i = as.integer(Sell$UserId), 
                      j = as.integer(Sell$Code), 
                      x = rep(1, nrow(Sell)), 
                      dimnames = list(levels(Sell$UserId), 
                                      levels(Sell$Code)))
#4 x 5 sparse Matrix of class "dgCMatrix"
#  2 3 12 111 333
#1 . .  1   1   1
#2 . .  1   1   .
#3 1 .  .   .   .
#4 . 1  .   .   .

逻辑稀疏矩阵需要更少的 RAM:

test2 <- sparseMatrix(i = as.integer(Sell$UserId), 
                      j = as.integer(Sell$Code), 
                      x = rep(TRUE, nrow(Sell)), 
                      dimnames = list(levels(Sell$UserId), 
                                      levels(Sell$Code)))
#4 x 5 sparse Matrix of class "lgCMatrix"
#  2 3 12 111 333
#1 . .  |   |   |
#2 . .  |   |   .
#3 | .  .   .   .
#4 . |  .   .   .
于 2015-11-19T12:50:52.183 回答
0

我不确定这是一个编码问题......但是......

SQL Server 2016 的新社区预览版在服务器上内置了 R,您可以在此处下载预览版以尝试:https ://www.microsoft.com/en-us/evalcenter/evaluate-sql-server-2016

这样做会将您的 R 代码带到您的数据中并在 SQL 引擎之上运行,从而实现与 SQL 内置相同的可扩展性。

或者,您可以在 Azure 中建立 VM,方法是转到新门户,选择“新建”“虚拟机”并搜索“SQL” 在此处输入图像描述

于 2015-11-19T12:40:15.653 回答