我有一个数据集的多类分类问题(有 6 个目标类)。训练数据具有类标签的倾斜分布:下面是每个类标签的分布(1 到 6)
(array([174171, 12, 29, 8285, 9996, 11128]),
我正在使用 vowpal wabbit 的 oaa 方案进行分类,并为每个示例尝试了默认权重 1.0。然而,对于大多数模型,这只会导致模型对评估中的所有示例预测为 1.0(因为标签 1 在训练集中具有非常大的表示)。
我现在正在尝试尝试不同的权重,我可以将这些权重应用于每个类的示例,以帮助提高分类器的性能。
任何关于决定每个示例权重的技术的指针或实用技巧都将非常有用。一种可能的技术是根据频率以反比对示例进行加权。不幸的是,这似乎导致分类器极大地偏向标签 2 和 3 ,并预测评估中几乎所有内容的 2 和 3。
模型选择会在决定权重方面发挥作用吗?我正在试验神经网络、逻辑和铰链损失函数。