python - 从现有矩阵中获取特征向量

Question

如果我使用 Scikit-learn 配置一个 CountVectorizer 对象并将一个包含 n 个句子（长度不同）的矩阵 M 传递给fit_transform函数，例如，我可以获得一个 n-gram 表示F。像这样：

vectorizer = CountVectorizer(min_df = 1,
                             max_features = 2000,
                             ngram_range = (2, 2),
                             analyzer="word)

F = vectorizer.fit_transform(A)

这很好用。F现在将具有形状 (2000, n )，因为我已将 max_features 设置为 2000。

但是假设我再获得一个句子，并且想生成一个与F的特征对齐并且具有相同长度（2000）的向量。这甚至可能吗，还是我需要保留原始矩阵M，将新句子添加到其中，然后重新生成所有特征？

score 1 · Accepted Answer

1

如果我理解您的要求，您可以使用vectorizer.transform(['New sentence here']).

于 2017-04-28T20:20:22.687 回答

python - 从现有矩阵中获取特征向量

1 回答 1

Related

Reference