0

我的数据集有 3 个类和 900 个用于训练的示例。类分布为 220、185 和 500。

我发现如果我对训练数据进行过采样,那么我必须纠正/校准测试数据的预测概率,因为在过采样之后,训练和测试数据分布不一样。这很好地描述了here

我有三个问题:

  1. 我是否也必须这样做来预测验证数据集(用于提前停止)?

  2. 我必须更正损失计算的概率吗?

  3. 这是强制性步骤吗?我问这个是因为这可能会损害整体准确性。因为这将惩罚具有较少示例的类的概率。

4

0 回答 0