基本上我有一个大数据框:10,000,000x900(行,列),我正在尝试并行转换每列的类。最终结果需要是一个 data.frame
这是我到目前为止所得到的:
假装df
是已经定义的数据框,所有列都是数字和字符类的混合
library(snow)
cl=makeCluster(50,type="SOCK")
cl.out=clusterApplyLB(cl,df,function(x)factor(x,exclude=NULL))
cl.out
是我想要的列表,除了我需要的是作为 data.frame 类
所以这就是我卡住的地方......我是否尝试将 cl.out 的所有元素组合到一个不会并行的 data.frame 中?(慢,时间是个问题)
我可以用不同的包实现其他东西吗?(前锋?)
我是否必须对一些 c 进行硬编码才能有效地完成这项工作?
任何帮助,将不胜感激。
谢谢,