我曾经tfidfVectorizer
使用 tfidf 值作为权重来将我的词向量转换为句子向量。由于我遇到了内存错误,我决定HashingVectorizer
改用。有没有办法像 with 一样在这个设置中获取给定单词的向量tfidf_vectorizer.vocabulary_[word]
?
问问题
172 次
1 回答
2
HashingVectorizer
是一个无状态的变压器。如文档中所述fit()
:
fit(X, y=None) Does nothing: this transformer is stateless.
此fit()
方法只是为了与 scikit-learn 中的其他实用程序兼容。HashingVectorizer
实际上什么都不记得了。所以没有词汇。它只是从提供的文档中获取标记,然后对其进行哈希处理以获取n_features
构造函数中定义的列:
n_features : integer, default=(2 ** 20)
输出矩阵中的特征(列)数。少量特征可能会导致哈希冲突,但大量特征会导致线性学习器中的系数维度较大。
于 2018-08-16T15:08:51.983 回答