嗨,在过去的几天里,我遇到了一个小/大问题。
我有一个交易数据集,有 100 万行和两列(客户 ID 和产品 ID),我想将其转换为二进制矩阵。我使用了 reshape 和 spread 功能,但在这两种情况下,我都使用了 64mb 内存并且 Rstudio/R 出现故障。因为我只用了1个CPU,所以这个过程需要很多时间我的问题是,小数据和大数据之间的这种转变有什么新的进展?谁可以使用更多的cpu?
我搜索并找到了几个解决方案,但我需要专业意见
1 - 使用 Spark R?
2 - H20.ai 解决方案? http://h2o.ai/product/enterprise-support/
3 - 革命分析?http://www.revolutionanalytics.com/big-data
4 - 去云端?像微软天蓝色?
如果需要,我可以使用具有很多内核的虚拟机.. 但我需要知道进行此交易的流畅方式是什么
我的具体问题
我有这个data.frame(但有100万行)
Sell<-data.frame(UserId = c(1,1,1,2,2,3,4), Code = c(111,12,333,12,111,2,3))
我做到了:
Sell[,3] <-1
test<-spread(Sell, Code, V3)
这适用于一个小数据集.. 但是有 100 万行这需要很长时间(12 小时)并且会下降,因为我的最大内存是 64MB。有什么建议么?