python - 在 Scikit-learn 的 LDA 实现中，“困惑度”（或“分数”）应该上升还是下降？

Question

我想知道 Scikit-learn 的 LDA 实现中的困惑和分数是什么意思。这些功能是模糊的。

至少，当模型更好时，我需要知道这些值是增加还是减少。我已经搜索过，但不知何故不清楚。我觉得困惑应该下降，但我想要一个关于这些值应该如何上升或下降的明确答案。

score 4 · Accepted Answer

困惑度是衡量模型预测样本的好坏程度。

根据Blei、Ng 和 Jordan的潜在狄利克雷分配，

[W]e 计算了用于评估模型的保留测试集的困惑度。语言建模中按照惯例使用的困惑度在测试数据的可能性中单调递减，并且在代数上等价于每个单词的几何平均可能性的倒数。较低的困惑度分数表示更好的泛化性能。

这可以从论文中的下图看出：

从本质上讲，由于困惑度相当于几何平均值的倒数，因此更低的困惑度意味着数据更有可能。因此，随着主题数量的增加，模型的困惑度应该会降低。

1 回答 1