这可能是一个众所周知的答案......但是为什么一个 11GB 的文件(csv)在导入 Python(Pandas)或 R 时会变成两倍以上的大小?
有问题的数据来自Kaggle 竞赛,解压缩后为 11GB(训练文件)。当我将它加载到 python 或 R 中时,它占用了两倍以上的空间。我在 Windows 上有 32 GB 的 RAM(加载文件时有大约 29 GB 的空闲空间),而且我几乎用完了空间。
在 Python 中:
import pandas as pd
train=pd.read_csv("C:\\Users\\train.csv")
在 R 中:
train<-read.csv(file="C:\\train.csv",header=TRUE)