0

我正在尝试找到数据框的相关系数并完美地工作。

使用 cor() 从数据帧中查找相关系数是否有问题,或者为大数据实现此代码是否很好?

cc = function(input, output = NULL){
    cc.map =  function(., v) 
    {
        data <- v[-1,]  
        data[,1:length(data)] = lapply(data[,1:length(data)], as.numeric)
        keyval("korelasi",data)

    }
    cc.reduce =function(k, v ) 
    {
        keyval(k, cor(v))
    }
    mapreduce(
        input = input ,
        output = output,
        input.format = make.input.format("csv",sep=",",fill = TRUE,stringsAsFactors=FALSE),
        map = cc.map,
        reduce = cc.reduce,
        combine = T)}
4

1 回答 1

0

cor是在 R 中计算矩阵相关性的标准方法。您已经在 reduce 函数中执行此操作,因此 hadoop 将为大型数据集处理此问题。

于 2019-11-10T19:23:45.960 回答