问题标签 [imblearn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
406 浏览

python - Imblearn balanced_batch_generator - can't run my CNN model

Currently, I'm working on my first Convolutional Neural Network for a project in university. I have to create a model that can recognize if a cable has a defect by only using images of "good" and "defect" cables in Google Colab.

My dataset is unbalanced; I have more images of 'good' cables then 'defect' ones. That's why I used the imblearn-library and its function 'balanced_batch_generator' so that I could oversample the minority class. To work with the generator, I needed to reshape my X from dim 4 in dim 2. Now when I want to run the balanced batches in my model, I get an error due to the 2x2 shape and I don't know how to reshape the batches inside of the generator to get the model running.

I also tried to put a 'Flatten'-layer as the first layer with typed in input_shape to change the dense layer from the batch_generator but then I can't compile/build the model because it expects more dimensions than I can put in.

Here is my code:

Error message:

Can anybody help me? Or give me a hint?

0 投票
1 回答
150 浏览

python - 如何使用 Python 的“imblearn”库将 (120, 100, 100) 形状的图像数据重塑为 (120, 10000) 形状以进行欠采样?

我正在使用Python的imblearn库进行欠采样。

必要代码:

这里X是我的(120, 100, 100) 形状的图像数据集 & ,y(120,) 形状的图像标签。我在这里遇到错误。但是如果我给X形状 (x_value, y_value)那么它就可以了。有什么方法可以将(120, 100, 100) 形状的图像数据转换为(120, 10000)形状?

0 投票
1 回答
246 浏览

python - 如何在 Python 中使用“imblearn”库对两个以上类的数据集进行欠采样/过采样?

我正在使用“imblearn”库进行欠采样。我的数据集中有四个类,每个类有 20、30、40 和 50 个数据(因为它是一个不平衡的类)。

但是当我尝试使用“fit_resample(X, y)”对数据集进行欠采样时,它只会对第一个和最后一个类进行欠采样。

有什么方法可以使用“imblearn”对所有四个类进行欠采样?

必要代码:

0 投票
1 回答
520 浏览

python - 如何使用 Python 中的“imblearn”库为每个类指定准确的欠采样/过采样数?

我正在使用“imblearn”库进行欠采样。我的数据集中有四个类,每个类有 20、30、40 和 50 个样本数据(因为它是一个不平衡的类)。选择这些样本数是为了方便地描述问题,这些在实际中并不是有效的数量。

我想对每个有 10 个样本数据的类进行欠采样。有没有一种可能的方法可以使用“imblearn”来做到这一点?

目前,我正在使用以下代码对每个班级进行欠采样到我的少数班级拥有的数量(20 个样本数据):

0 投票
1 回答
176 浏览

python - 导入 SMOTE 时出现不平衡学习模块 base.py 文件语法错误

我使用(Python 2.7)安装了不平衡学习包:

安装后,我尝试从包中导入 SMOTE。

这给出了以下错误:

谁能帮我解决这个错误或指出我是否没有正确安装软件包?

0 投票
1 回答
8062 浏览

oversampling - TypeError: __init__() 在使用 SMOTE 时得到了一个意外的关键字参数 'ratio'

由于我的数据集不平衡,我正在使用 SMOTE 进行过采样。我收到一个意外的参数错误。但在文档中,该ratio参数是为 SMOTE 定义的。有人可以帮助我了解我哪里出错了吗?

代码片段

错误

0 投票
1 回答
4272 浏览

python - 'RandomOverSampler' 对象没有属性 '_validate_data'

嗨,我收到以下错误,任何人都可以建议我有什么问题吗?

当我打电话时,os.fit_sample(X,y)

'RandomOverSampler' 对象没有属性 '_validate_data'

0 投票
1 回答
63 浏览

python - 如何在 SMOTE(imblearn 模块)之后提取新添加的行

是否可以从 imblearn 的 smote 函数创建的 pandas 数据框中提取新添加的行?

0 投票
7 回答
20448 浏览

python - AttributeError:“SMOTE”对象没有属性“_validate_data”

我正在使用 SMOTE 重新采样我的数据(多类)。

但是,我收到此属性错误。任何人都可以帮忙吗?

0 投票
2 回答
1066 浏览

python - 尝试将 imblearn.pipeline 与 RandomOverSampler 和 DecisionTreeClassifier 一起使用

我正在尝试使用 GridSearchCV 设置 DecisionTreeClassifiers 的超参数,并且由于我的数据不平衡,我正在尝试使用 imblearn.over_sampling.RandomOverSampler。

这将返回一个错误:

我在这里做错了什么?

编辑:下面发布的解决方案