我知道朴素贝叶斯擅长二元分类,但我想知道多类分类是如何工作的。
例如:我之前使用朴素贝叶斯进行了文本分类,其中我对文本进行了向量化以找到文档中每个单词的概率,然后使用向量化的数据来拟合朴素贝叶斯分类器。
现在,我正在处理如下数据:
A、B、C、D、E、F、G
210, 203, 0, 30, 710, 2587452, 0
273、250、0、30、725、3548798、1
283、298、0、31、785、3987452、3
在上述数据中,有 6 个特征(AF),G 是具有值(0,1 或 2)的类
我在数据集中有近 70000 个条目,类别(输出)为 1、2 或 3。
将数据拆分为测试和训练数据后,我将训练数据拟合到 sklearn-GaussianNB 算法中。拟合后,当我尝试预测测试数据时,它只是分类为 0 或 2。
所以,我的问题是,当我在文本分类期间拟合 navie bayes 分类器之前执行矢量化时,在将 GaussianNB 分类器与训练数据拟合之前,是否需要对上述数据进行数据预处理,以便它可以预测多-class(0,1 和 2) 而不是只有 (0 和 2)。