问题标签 [imblearn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
791 浏览

python-2.7 - 过采样不会产生新样本

我的数据集具有以下分布:

python-imblearn用来对少数类进行过采样。使用regularsmote 我可以生成 200 个第 6 类的样本,但是使用l1borderline或者l2borderline我不能这样做。

有什么数学问题还是我错过了什么?

0 投票
1 回答
581 浏览

python - 过采样和上采样之间以及 SMOTE 和 over_sampling.SMOTE 之间的区别?

这个问题有点偏执,因为在谷歌中,搜索结果被音频和傅里叶变换等混合在一起。

  1. 特别是对于python,当涉及到数字数据时,少数类的过采样和上采样有区别吗?

  2. 我正在使用 imblearn 对少数类进行过采样/上采样。我目前正在使用

    但最近,我遇到了

    有什么区别?

0 投票
2 回答
2579 浏览

python-3.x - 如何使用 Python 对图像数据集进行过采样?

我正在处理具有不平衡图像数据集(不同类别)的多类分类问题。我尝试imblearn了库,但它不适用于图像数据集。

我有一个属于 3 类的图像数据集,即 A、B、C。A 有 1000 个数据,B 有 300 个,C 有 100 个。我想对 B 类和 C 类进行过采样,这样可以避免数据不平衡。请让我知道如何使用 python 对图像数据集进行过采样。

0 投票
5 回答
27153 浏览

scikit-learn - SMOTE 初始化需要 n_neighbors <= n_samples,但 n_samples < n_neighbors

我已经预先清理了数据,下面显示了前 4 行的格式:

我调用了 train_test_split() 如下:

然后,我使用以下 TfidfVectorizer 和拟合/转换过程对 X 训练和测试数据进行了矢量化处理:

我现在处于通常应用分类器等的阶段(如果这是一组平衡的数据)。但是,我初始化了 imblearn 的 SMOTE ()类(以执行过采样)...

...但这会导致:

我试图减少 n_neighbors 的数量,但无济于事,任何提示或建议将不胜感激。谢谢阅读。

-------------------------------------------------- -------------------------------------------------- --------------------------------

编辑:

完整回溯

数据集/数据框 ( df) 包含两列 2380 行,如上所示df.head()X_train包含 1785 行格式为字符串 ( df['cleaned']) 的行,y_train还包含 1785 行格式为字符串 ( df['Year'])。

TfidfVectorizer()使用:X_train和的后矢量化X_test分别从pandas.core.series.Series形状 '(1785,)' 和 '(595,)' 转换scipy.sparse.csr.csr_matrix为形状 '(1785, 126459)' 和 '(595, 126459)'。

至于类的数量:使用Counter(),我计算出有 199 个类(年),类的每个实例都附加到上述df['cleaned']数据的一个元素,其中包含从文本语料库中提取的字符串列表。

此过程的目标是根据词汇表自动确定/猜测输入文本数据的年份、十年或世纪(任何程度的分类都可以!)。

0 投票
1 回答
962 浏览

python - 在 Sklearn 管道中使用 VotingClassifier 和其他分类器

我想使用VotingClassifier里面的 a sklearn Pipeline,我在其中定义了一组分类器 ..

我从这个问题中得到了一些直觉:Using VotingClassifierin Sklearn Pipeline to build the code below,但是在这个问题中,每个分类器都定义在一个独立的管道中。我不想以这种方式使用它,我有一个之前准备了一组特征,在具有不同分类器的多个管道中重复生成这些特征不是一个好主意(耗时的过程)!

我怎么能做到这一点?!

但我收到了这个错误:

0 投票
10 回答
55438 浏览

python-3.x - ModuleNotFoundError:没有名为“imblearn”的模块

我尝试运行以下代码:

这给了我错误信息:

我尝试以多种方式安装 imblearn 模块,它们似乎都可以工作(安装过程中没有给出错误,但是当我运行上述代码时,我收到一条错误消息)。

我尝试使用其他 stackoverflow 问题中建议的以下建议安装 imblearn:

这些似乎都没有帮助......有什么想法吗?谢谢!

0 投票
1 回答
808 浏览

python - 如何将 Smote 与 imblearn 一起使用?

我无法将 SMOTE 与 imblearn 一起使用。以下是我在我的 jupyter 笔记本中所做的。有什么建议么?

在这里它抛出错误:

0 投票
2 回答
5566 浏览

python - 缺少值的 SMOTE

我正在尝试imblearn在 Python 中使用包中的 SMOTE,但我的数据有很多缺失值,并且出现以下错误:

ValueError:输入包含 NaN、无穷大或对于 dtype('float64') 来说太大的值。

我检查了这里的参数,似乎没有一个处理缺失值的。

有没有办法生成具有缺失值的合成样本?

0 投票
1 回答
305 浏览

python - 使用 imblearn 绘制 ROC 曲线

我正在尝试使用 imblearn 绘制 ROC 曲线,但遇到了一些问题。

这是我的数据的截图

截屏

我将原来的更改为X_train and y_trainX_resampled, y_resampled因为应该在重新采样的数据集上进行训练,并且需要在原始测试数据集上进行测试。但是我得到了以下回溯`

我添加了另一行来对 y_resampled 和原始 y 进行二值化,其他一切都保持不变,但我不确定我是否正在拟合重新采样的数据并测试原始数据

非常感谢您的帮助。

0 投票
0 回答
1244 浏览

python - 无法安装 imblearn 以使用 SMOTE

我一直在尝试安装 imblearn 以使用 SMOTE,并且我认为它是成功的,但是当我在我的 Jupyter Notebook 中输入这个时from imblearn.over_sampling import SMOTE,我得到了错误ImportError: cannot import name 'SMOTE'。你知道为什么会这样吗?我使用以下命令下载 imblearnconda install -c conda-forge imbalanced-learn并在完成后获得下载确认。

远程安装