如果我使用 Scikit-learn 配置一个 CountVectorizer 对象并将一个包含 n 个句子(长度不同)的矩阵 M 传递给fit_transform函数,例如,我可以获得一个 n-gram 表示F。像这样:
vectorizer = CountVectorizer(min_df = 1,
max_features = 2000,
ngram_range = (2, 2),
analyzer="word)
F = vectorizer.fit_transform(A)
这很好用。F现在将具有形状 (2000, n ),因为我已将 max_features 设置为 2000。
但是假设我再获得一个句子,并且想生成一个与F的特征对齐并且具有相同长度(2000)的向量。这甚至可能吗,还是我需要保留原始矩阵M,将新句子添加到其中,然后重新生成所有特征?