1

我曾经tfidfVectorizer使用 tfidf 值作为权重来将我的词向量转换为句子向量。由于我遇到了内存错误,我决定HashingVectorizer改用。有没有办法像 with 一样在这个设置中获取给定单词的向量tfidf_vectorizer.vocabulary_[word]

4

1 回答 1

2

HashingVectorizer是一个无状态的变压器。如文档中所述fit()

fit(X, y=None)
    Does nothing: this transformer is stateless.

fit()方法只是为了与 scikit-learn 中的其他实用程序兼容。HashingVectorizer实际上什么都不记得了。所以没有词汇。它只是从提供的文档中获取标记,然后对其进行哈希处理以获取n_features构造函数中定义的列:

n_features : integer, default=(2 ** 20)

输出矩阵中的特征(列)数。少量特征可能会导致哈希冲突,但大量特征会导致线性学习器中的系数维度较大。

于 2018-08-16T15:08:51.983 回答