我最近在处理一个安静的大数据集,我打算使用 Tfidfvectorizer 来分析它。
以前有关于实现 Tfidfvectorizer 时的 MemoryError 的帖子,但是,在我的情况下,MemoryError 发生在我将数据输入 Tfidfvectorizer 之前。这是我的代码。
读取数据
data = pd.read_csv(...) data['description'] is the text content
处理数据
from sklearn.feature_extraction.text import TfidfVectorizer description_vectorizer = TfidfVectorizer(max_features=500, min_df=0.2, ngram_range=(2, 3), preprocessor=preprocessor, stop_words='english') description_vectorizer.fit(data.description.values.astype('U'))
这里的很多帖子都谈到了拟合Tfidfvectorizer时的MemoryError,但我发现当我将数据转换为unicode时,即在此步骤中:data.description.values.astype('U'),就会发生MemoryError。
因此,关于如何在 Tfidfvectorizer 中调整参数的策略在我的情况下没有用。
有人遇到过这个问题并且知道如何解决吗?非常感谢。