0

我有不平衡的数据集——不过还不错(850 - 1 级和 450 - 2 级)。然后,我将其拆分(80% 用于训练,20% 用于验证)。我在验证中使用了 SMOTE 技术,因此这两个类平均分布(50%-50%)。

我的理解是我不应该在不平衡的验证集(20%)上应用 SMOTE,因为这会在解释矩阵(例如准确性)时导致问题,所以我需要留下 20% 的偏差(不平衡)——这就是我不确定。

我是否应该继续将我的验证训练集修改为 50% 到 50%(简单地随机删除大多数样本)

“如果你对训练数据进行过采样以改变训练集中的相对类频率,你就是在隐含地告诉分类器期望验证集具有相同的类频率”。这是它从一个较旧的线程中所说的

4

0 回答 0