0

我正在处理一个相当大的数据集,并希望确定哪些主题是有意义的。我同时使用了 NMF 和 LDA(sklearn 实现),但关键问题是:什么是成功的合适衡量标准。在视觉上,我在许多主题中只有几个高度权重的关键字(其他权重 ~ 0),以及一些主题分布更钟形的主题。目标是什么:一个有几个词的主题,高权重,休息低(尖峰)或钟形分布,在大#关键字上逐渐减少权重 NMF 在此处输入图像描述

或 LDA 方法

在此处输入图像描述 这主要是一个钟形(显然不是曲线)

我还使用了加权 jaccard(设置关键字的重叠,加权;毫无疑问有更好的方法,但这有点直观

你对此有何看法?

最好的,

安德烈亚斯

https://scikit-learn.org/stable/auto_examples/applications/plot_topics_extraction_with_nmf_lda.html?highlight=document%20word%20matrix的代码

4

1 回答 1

0

有一些常用的评估指标可以很好地直观地了解您的主题集的质量,以及您对k(主题数量)的选择。Dieng 等人最近的一篇论文。(嵌入式空间中的主题建模)使用两个最佳度量:连贯性和多样性。结合起来,连贯性和多样性可以让您了解主题的聚集程度。连贯性使用它们在文档中的共现来衡量每个主题中单词的相似性,而多样性则基于主题的重叠来衡量主题之间的相似性。如果你在多样性上得分低,这意味着单词在主题上是重叠的,你可能想要增加k.

确实没有“最好的决定方式k”,但这些措施可以帮助您决定是增加还是减少数量。

于 2021-05-06T18:54:17.907 回答