2

我正在研究一个 LDA 模型textmineR,计算了相干性、对数似然度量并优化了我的模型。

作为最后一步,我想看看模型对看不见的数据的主题预测效果如何。因此,我predict()将 textminer 包中的函数与我的测试集样本上的 GIBBS 采样结合使用。这导致我的测试集样本中每个文档的预测“Theta”值。

虽然我在另一篇文章中读到该软件包不提供perplexity-calculationstexminer(请参阅此处的这篇文章:如何在使用 R 中的 textmineR 软件包制作的 LDA 模型上测量困惑度分数?),我现在想知道目的是什么那么预测函数是为什么呢?尤其是对于超过 100,000 个文档的大型数据集,很难仅直观地评估预测是否表现良好。

我不想在模型选择中使用困惑(我使用的是连贯性/对数似然),但据我了解,困惑将帮助我理解预测的好坏以及模型对新模型的“惊讶”程度,以前看不见的数据。

由于这似乎不适用于 textmineR,我不确定如何评估模型预测。还有什么可以用来衡量我的textminer模型的预测质量的吗?

谢谢!

4

0 回答 0