我是主题模型、分类等方面的新手……现在我已经在做一个项目并阅读了很多研究论文。我的数据集由人工标记的短消息组成。到目前为止,这是我想出的:
- 由于我的数据很短,我阅读了有关潜在狄利克雷分配(及其所有变体)的信息,这对于检测文档中的潜在单词很有用。
- 基于此,我发现了 JGibbLDA http://jgibblda.sourceforge.net的 Java 实现,但是由于我的数据已标记,因此对此进行了改进,称为 JGibbLabeledLDA https://github.com/myleott/JGibbLabeledLDA
- 在大多数研究论文中,我阅读了关于 Weka 的好评,所以我在我的数据集上搞砸了
- 然而,我的数据集再次被标记,因此我发现了一个名为 Meka http://sourceforge.net/projects/meka/的 Weka 扩展,它具有多标记数据的实现
- 阅读多标签数据,我知道最常用的方法,例如一对多和链分类器......
现在我在这里的原因是因为我希望对以下问题有答案:
- LDA 是解决我的问题的好方法吗?
- LDA 是否应该与分类器(NB、SVM、二元相关性、逻辑回归……)一起使用,或者 LDA 是否“足以”用作新的、看不见的数据的分类器/估计器?
- 我需要如何解释来自 JGibbLDA / JGibbLabeledLDA 的输出。我如何从这些文件中获取告诉我哪些单词/标签分配给整个消息(不仅仅是每个单词)的东西
- 我如何使用 Weka/Meka 来达到我在上一个问题中想要的(如果 LDA 不是我想要的)
我希望有人,或者不止一个人,可以帮助我弄清楚我需要如何做到这一点。所有的大意都不是这里的问题,我只是不知道如何从文学走向实践。大多数论文都没有对他们如何进行实验给出足够的描述,或者对于我关于这些主题的背景来说过于技术化。
谢谢!