我使用以下代码对我的文档进行主题建模:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5))
tfidf = tfidf_vectorizer.fit_transform(docs)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()
from sklearn.decomposition import NMF
no_topics = 50
%time nmf = NMF(n_components=no_topics, random_state=11, init='nndsvd').fit(tfidf)
topic_pr= nmf.transform(tfidf)
我认为 topic_pr 给了我每个文档不同主题的概率分布。换句话说,我预计输出(topic_pr)中的数字将是第 X 行中的文档属于模型中 50 个主题中的每一个的概率。但是,这些数字加起来不等于 1。这些真的是概率吗?如果不是,有没有办法将它们转换为概率?
谢谢