我有一个大数据集(~188000 行),我想计算我的行之间的距离,这样我就可以应用该hclust
函数来确定我的数据集的中心,然后应用该kmeans
函数对我的数据进行分类。
我的问题是计算我的矩阵距离的第一步:使用dist
包中的函数stats
给了我这个错误:
Error: cannot allocate vector of size 132.0 Gb
很明显,这是一个 RAM 问题。
我需要找到另一种方法来计算我的距离矩阵。
任何明确的答案都会对我很有帮助。
我有一个大数据集(~188000 行),我想计算我的行之间的距离,这样我就可以应用该hclust
函数来确定我的数据集的中心,然后应用该kmeans
函数对我的数据进行分类。
我的问题是计算我的矩阵距离的第一步:使用dist
包中的函数stats
给了我这个错误:
Error: cannot allocate vector of size 132.0 Gb
很明显,这是一个 RAM 问题。
我需要找到另一种方法来计算我的距离矩阵。
任何明确的答案都会对我很有帮助。