我有一个熊猫数据框,其列text
由news articles
. 给定为:-
text
article1
article2
article3
article4
我将文章的 Tf-IDF 值计算为:-
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
matrix_1 = tfidf.fit_transform(df['text'])
由于我的数据框会不时更新。因此,假设在将 of-if 计算为 matrix_1 之后,我的数据框得到了更多文章的更新。就像是:
text
article1
article2
article3
article4
article5
article6
article7
因为我有数百万篇文章,所以我想存储上一篇文章的 tf-IDF 矩阵,并用新文章的 tf-IDF 分数更新它。一次又一次地为所有文章运行 of-IDF 代码会消耗内存。有什么办法可以做到这一点?