0

我有一个格式错误且稀疏的 SMS 消息数据集。我尝试使用主题建模来获取每条消息中所有可能的主题以及每个相关主题的概率。我需要能够排列或排列每条消息的主题的概率。

作为替代解决方案,我正在考虑手动标记我的数据集并使用监督分类算法,例如朴素贝叶斯。这是我的 SMS 消息示例,这些消息稀疏且包含垃圾邮件内容,因此我认为主题建模效果不佳:

在此处输入图像描述

我面临的挑战:

  1. 使用监督分类方法的替代方法是否合理,还是我应该保留像主题建模这样的无监督方法?

  2. 我应该如何处理数据集:每条消息应该拥有一个类别作为标签还是我可以分配多个类别?

  3. 这是一个多标签还是多类分类问题?

4

1 回答 1

1

如果您知道主题是什么,请使用有监督的朴素贝叶斯。无监督学习可用于类别发现。

将多个主题分配给一个样本不是问题。

朴素贝叶斯根据概率最高的主题为样本分配标签。自然地,您可以使用最高 x 概率(可能带有阈值)来分配多个主题。

于 2017-08-19T08:26:42.353 回答