我正在处理一个巨大的数据集,我想得出一个测试统计的分布。因此,我需要使用巨大的矩阵 (200000x200000) 进行计算,正如您可能预测的那样,我有内存问题。更准确地说,我得到以下信息:错误:无法分配大小为 ... Gb 的向量。我在 64 位版本的 R 上工作,我的 RAM 是 8Gb。我尝试使用包 bigmemory 但没有取得很大成功。
当我必须计算距离矩阵时,第一个问题就出现了。我在名为 Dist 的 amap 包中发现了这个不错的函数,它可以并行计算数据帧的列的距离,并且效果很好,但是它会产生下/上三角形。我需要距离矩阵来执行矩阵乘法,不幸的是我不能使用一半的矩阵。当使用 as.matrix 函数使其充满时,我又遇到了内存问题。
所以我的问题是如何通过跳过 as.matrix 步骤将 dist 对象转换为 big.matrix 。我想这可能是一个 Rccp 问题,请记住,我是 Rccp 的新手。
提前谢谢!