-1

我在包含约 55800 个样本的数据集上使用不同的imblearn过采样方法。大约 200 个是 1 类,其余是 0 类。我正在使用各种过采样策略对 1 类进行过采样。

它不会提高我的模型质量,因此我不想仔细查看生成的样本。但是如何访问它们?有什么方法可以获取创建的索引吗?

在采样之前和之后循环遍历示例列表,过滤掉非重复项,这要求太高了,并且冻结了我的笔记本电脑。

4

1 回答 1

0

据我所知,imblearn 中没有内置函数可以返回过采样的索引。因此,唯一的解决方案是按照您的建议通过比较之前和之后来获取索引。为了不冻结您的笔记本电脑,您可以忽略大多数多数类样本,因为它们不用于创建少数类的过采样样本(至少不用于随机过采样或正常 SMOTE)。

因此,假设您删除了除 0 类的 500 个样本之外的所有样本,并保留了 1 类的所有 200 个样本,然后执行 smote-oversampling,然后像之前尝试过的那样进行比较。有了这么多的样本,它不应该冻结您的笔记本电脑,并且您可以了解过采样样本的外观。

于 2020-04-10T16:39:22.257 回答