machine-learning - 关于文本分类的一般问题

翻译自：https://stackoverflow.com/questions/22132464 2014-03-02T19:41:13.833

325 次

1

我是主题模型、分类等方面的新手……现在我已经在做一个项目并阅读了很多研究论文。我的数据集由人工标记的短消息组成。到目前为止，这是我想出的：

由于我的数据很短，我阅读了有关潜在狄利克雷分配（及其所有变体）的信息，这对于检测文档中的潜在单词很有用。
基于此，我发现了 JGibbLDA http://jgibblda.sourceforge.net的 Java 实现，但是由于我的数据已标记，因此对此进行了改进，称为 JGibbLabeledLDA https://github.com/myleott/JGibbLabeledLDA
在大多数研究论文中，我阅读了关于 Weka 的好评，所以我在我的数据集上搞砸了
然而，我的数据集再次被标记，因此我发现了一个名为 Meka http://sourceforge.net/projects/meka/的 Weka 扩展，它具有多标记数据的实现
阅读多标签数据，我知道最常用的方法，例如一对多和链分类器......

现在我在这里的原因是因为我希望对以下问题有答案：

LDA 是解决我的问题的好方法吗？
LDA 是否应该与分类器（NB、SVM、二元相关性、逻辑回归……）一起使用，或者 LDA 是否“足以”用作新的、看不见的数据的分类器/估计器？
我需要如何解释来自 JGibbLDA / JGibbLabeledLDA 的输出。我如何从这些文件中获取告诉我哪些单词/标签分配给整个消息（不仅仅是每个单词）的东西
我如何使用 Weka/Meka 来达到我在上一个问题中想要的（如果 LDA 不是我想要的）

我希望有人，或者不止一个人，可以帮助我弄清楚我需要如何做到这一点。所有的大意都不是这里的问题，我只是不知道如何从文学走向实践。大多数论文都没有对他们如何进行实验给出足够的描述，或者对于我关于这些主题的背景来说过于技术化。

谢谢！

0 回答 0