如何获取由创建的词汇表中每个术语的术语频率(TF)sklearn.feature_extraction.text.CountVectorizer
并将它们放入列表或字典中?
看来词汇表中所有key对应的值都是小于我在初始化CountVectorizer时手动设置的max_features的int数,而不是TF——应该是浮点数。有人可以帮我吗?
CV=CountVectorizer(ngram_range(ngram_min_file_opcode,ngram_max_file_opcode),
decode_error="ignore", max_features=max_features_file_re,
token_pattern=r'\b\w+\b', min_df=1, max_df=1.0)
x = CV.fit_transform(x).toarray()