我有一个格式错误且稀疏的 SMS 消息数据集。我尝试使用主题建模来获取每条消息中所有可能的主题以及每个相关主题的概率。我需要能够排列或排列每条消息的主题的概率。
作为替代解决方案,我正在考虑手动标记我的数据集并使用监督分类算法,例如朴素贝叶斯。这是我的 SMS 消息示例,这些消息稀疏且包含垃圾邮件内容,因此我认为主题建模效果不佳:
我面临的挑战:
使用监督分类方法的替代方法是否合理,还是我应该保留像主题建模这样的无监督方法?
我应该如何处理数据集:每条消息应该拥有一个类别作为标签还是我可以分配多个类别?
这是一个多标签还是多类分类问题?