我正在处理一个相当大的文本数据集(540 万个短文本),我试图在 16GB 的内存上对它们进行情绪分析。
每当我尝试构建语言模型时,我都会内存不足:
data_lm = text_data_from_csv(DATASET_PATH, data_func=lm_data, chunksize=4000)
# Out of memory
data_clas = text_data_from_csv(DATASET_PATH, data_func=classifier_data, vocab=data_lm.train_ds.vocab, chunksize=500)
我玩过块大小,但内存使用量似乎随着时间的推移不断上升,最终导致内存错误。
有没有办法解决这个问题?