使用 python + scikit-learn,我将“极端随机树”分类器 (ExtraTreesClassifier) 拟合到 100 个特征的约 900K 样本数组(实值 float64)。然后我试着腌制它。
我用以下方法实例化了分类器:
cls = ExtraTreesClassifier(n_estimators=10, random_state=0, n_jobs=-1)
拟合后,我尝试了两种保存方式:
pickle.dump(cls, open(classifier_file, "wb"))
并且,使用 joblib:
from sklearn.externals import joblib joblib.dump(cls, classifier_file)
在普通的泡菜中,它占用了 4+ GB 的空间!在 joblib 版本中,它占用大约 1.5 GB 的空间。
它是否固有地存储了一些适合或预测的原始输入数据?