我正在通过 numpy.loadtxt 将 csv 文件加载到 numpy 数组中。我的数据有大约 100 万条记录和 87 列。虽然 object.nbytes 只有 177159666 字节,但它实际上需要更多的内存,因为我在使用 scikit-learn 训练决策树时得到了“MemoryError”。此外,在读取数据后,我系统中的可用内存减少了 1.8 gigs。我正在使用 3 gigs 内存的 linux 机器上工作。那么 object.nbytes 是否返回 numpy 数组的实际内存使用情况?
train = np.loadtxt('~/Py_train.csv', delimiter=',', skiprows=1, dtype='float16')