我正在处理一个相当大的数据集,并希望确定哪些主题是有意义的。我同时使用了 NMF 和 LDA(sklearn 实现),但关键问题是:什么是成功的合适衡量标准。在视觉上,我在许多主题中只有几个高度权重的关键字(其他权重 ~ 0),以及一些主题分布更钟形的主题。目标是什么:一个有几个词的主题,高权重,休息低(尖峰)或钟形分布,在大#关键字上逐渐减少权重 NMF
或 LDA 方法
我还使用了加权 jaccard(设置关键字的重叠,加权;毫无疑问有更好的方法,但这有点直观
你对此有何看法?
最好的,
安德烈亚斯
https://scikit-learn.org/stable/auto_examples/applications/plot_topics_extraction_with_nmf_lda.html?highlight=document%20word%20matrix的代码