0

如果我使用 Scikit-learn 配置一个 CountVectorizer 对象并将一个包含 n 个句子(长度不同)的矩阵 M 传递给fit_transform函数,例如,我可以获得一个 n-gram 表示F。像这样:

vectorizer = CountVectorizer(min_df = 1,
                             max_features = 2000,
                             ngram_range = (2, 2),
                             analyzer="word)

F = vectorizer.fit_transform(A)

这很好用。F现在将具有形状 (2000, n ),因为我已将 max_features 设置为 2000。

但是假设我再获得一个句子,并且想生成一个与F的特征对齐并且具有相同长度(2000)的向量。这甚至可能吗,还是我需要保留原始矩阵M,将新句子添加到其中,然后重新生成所有特征?

4

1 回答 1

1

如果我理解您的要求,您可以使用vectorizer.transform(['New sentence here']).

于 2017-04-28T20:20:22.687 回答