我读了这个问题(Coherence score 0.4 is good or bad?),发现连贯性分数(u_mass)从-14到14。但是当我做实验时,u_mass的分数是-18,c_v的分数是0.67 . 我想知道我的 u_mass 分数如何超出范围(-14、14)?
更新:我使用了 gensim 库并扫描了从 2 到 50 的主题数。对于 u_mass,它从 0 开始到最低的负点并稍微向后转,就像 c_v 的颠倒版本。
我读了这个问题(Coherence score 0.4 is good or bad?),发现连贯性分数(u_mass)从-14到14。但是当我做实验时,u_mass的分数是-18,c_v的分数是0.67 . 我想知道我的 u_mass 分数如何超出范围(-14、14)?
更新:我使用了 gensim 库并扫描了从 2 到 50 的主题数。对于 u_mass,它从 0 开始到最低的负点并稍微向后转,就像 c_v 的颠倒版本。
我参考了两个来源并发现了相似之处,可能会清除我的疑问: https ://www.os3.nl/_media/2017-2018/courses/rp2/p76_report.pdf
https://amp.reddit.com/r/learnmachinelearning/comments/9bcr77/coherence_score_u_mass/
我相信对于 u_mass,图表与 c_v 相比会有倒置的趋势,最低的负点是最好的。当然,如果你使用gensim。
按照此处所述(第 13-14 页),这是@Dammio 在他的回答中提到的同一文件,解释是相反的。在文本中,它说:“根据 UMASS 相干性测量,当 K 增加时,全球主题的相干性会降低。” K 是主题的数量。他们继续说:“对于分析,我们将 K = 6 的模型进行比较,进行 40 次迭代,这是一个局部最小值,而 10 次迭代表现更好。” 在图中,可以清楚地看到它比较了更差的局部最小值和更连贯的局部最大值。这意味着与接受的答案中所说的完全相反。此外,我在 Github 帖子中发现完全相同:更高的值更好:Link to Github answer