机器学习初学者在这里!就像了解我应该如何处理分类问题一样。鉴于手头的问题是分类一个对象是属于 A 类还是 B 类,我想知道我应该使用生成模型还是判别模型。我有 2 个问题。
- 判别模型似乎在分类问题上做得更好,因为它只关心如何绘制决策边界,而不关心其他问题。
问:但是,如果要训练和测试一个包含大约 80 个 A 类对象和不到 10 个 B 类对象的小数据集,判别模型会过拟合,因此生成模型会表现得更好吗?
- 此外,由于 A 类对象和 B 类对象的数量差异非常大,训练的模型很可能只能识别 A 类对象。即使模型将所有对象分类为 A 类,这仍然会导致非常高的准确度得分。
问:鉴于没有其他方法可以增加 B 类数据集的大小,关于如何减少这种偏见的任何想法?