4

我想知道 Scikit-learn 的 LDA 实现中的困惑和分数是什么意思。这些功能是模糊的。

至少,当模型更好时,我需要知道这些值是增加还是减少。我已经搜索过,但不知何故不清楚。我觉得困惑应该下降,但我想要一个关于这些值应该如何上升或下降的明确答案。

4

1 回答 1

4

困惑度是衡量模型预测样本的好坏程度。

根据Blei、Ng 和 Jordan的潜在狄利克雷分配,

[W]e 计算了用于评估模型的保留测试集的困惑度。语言建模中按照惯例使用的困惑度在测试数据的可能性中单调递减,并且在代数上等价于每个单词的几何平均可能性的倒数。较低的困惑度分数表示更好的泛化性能。

这可以从论文中的下图看出:

在此处输入图像描述

从本质上讲,由于困惑度相当于​​几何平均值的倒数,因此更低的困惑度意味着数据更有可能。因此,随着主题数量的增加,模型的困惑度应该会降低。

于 2018-08-07T20:58:55.847 回答