scikit-learn - 用于主题提取、困惑度和评分的 Sk-learn LDA

翻译自：https://stackoverflow.com/questions/47632518 2017-12-04T11:38:04.507

266 次

1

大家好！

作为项目的一部分，我需要使用我拥有的标记数据构建一个文本分类器。一个数据点由单个句子和每个句子的 3 个类别之一组成。我用 LDA 从这个数据库中提取了 5 个主题。

我想尝试的是，我想使用这些主题来确定一个看不见的句子属于哪个类。我正在考虑训练一个有 5 个指标的监督模型，该模型显示给定这 5 个主题的句子的主题分布。

问题是我无法为给定句子的每个主题获得单独的可能性。我对 LDA 模型的困惑和分数表示什么感到困惑。它们似乎返回单个浮点值。

另外，我知道 LDA 的监督版本。我想知道我的方法是否有意义。

提前致谢！

0 回答 0