问题标签 [imblearn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6634 浏览

python-3.x - 使用 Imblearn 管道和 GridSearchCV 进行交叉验证

我正在尝试使用Pipeline该类imblearnGridSearchCV获取对不平衡数据集进行分类的最佳参数。根据这里提到的答案,我想省略验证集的重新采样,而只重新采样训练集,这imblearn似乎Pipeline正在做。但是,在实施公认的解决方案时出现错误。请让我知道我做错了什么。下面是我的实现:

参数:

分类器:

错误:

0 投票
1 回答
3193 浏览

python - 由于错误 < 无法导入 SMOTE>

由于错误 ImportError: cannot import name 'lobpcg' from 'sklearn.utils.fixes' (E:\Installations\lib\site-packages\sklearn\utils\fixes.py),无法导入 SMOTE

当我尝试导入以下包时显示上述错误

0 投票
1 回答
2788 浏览

python-3.x - AttributeError: 'DataFrame' 对象在使用 SMOTE 时没有属性 'name'

我正在使用 imblearn over_sampling SMOTE 技术来平衡我的不平衡数据集。

这是我的示例代码

因此,当我尝试拟合 SMOTE 模型时,它会显示属性错误。AttributeError: 'DataFrame' object has no attribute 'name' 。有人能帮我解决这个问题吗?

我也安装了库

Windows-10-10.0.15063-SP0 Python 3.6.5 |Anaconda, Inc.| (默认, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] NumPy 1.17.4 SciPy 1.3.2 Scikit-Learn 0.22 以上是安装的版本。

特征和目标输出 特征输出 目标输出

0 投票
1 回答
285 浏览

random-forest - 在带有预处理的 GridSearchCV 管道中使用 SMOTEENN

我正在处理一个高度不平衡的数据集的分类问题。我正在尝试SMOTEENN在网格搜索管道中使用,但是我不断收到这个 ValueError:

我在网上发现,如果导入了来自 imblearn 的管道,SMOTEENN 可以与 GridSearchCV 一起使用。我正在使用来自 imblearn 的管道,但它仍然给我这个错误。

当我尝试使用SMOTEENN和获取 X 和 y 变量时,问题首先开始。我有一个prepare_data()将数据分解为 X,y 的函数。我想SMOTEENN在该函数中使用并返回平衡数据。但是,我的功能之一是字符串类型 - 并且需要放入OneHotEncoder. 出于某种原因,SMOTEENN似乎不处理字符串。因此,我需要在管道中使用它,这样SMOTEENN才能有效post-preprocessing

我在下面粘贴我的管道代码。任何帮助或解释将不胜感激!谢谢!

0 投票
0 回答
553 浏览

python - 如何使用 imblearn 管道在 sklearn gridsearchcv 后保存模型:TypeError: can't pickle _thread.RLock objects

我面临的问题是,我在处理极其不平衡的数据集时使用 imblearn 管道和使用 sklearn gridsearchcv 执行了网格搜索,但是当我尝试保存模型时,我收到错误“TypeError:不能pickle _thread.RLock 对象'。我用来保存模型的语句是

情况1:

案例2:

1) 对于二元分类问题,我定义了模型架构,如下所示

构建函数来创建模型,KerasClassifier 需要

2)构建参数搜索网格,如下所示

初始化参数网格

2) 实例化管道并执行 GridSearch,如下所示

实例化 SMOTE 对象

实例化缩放器对象

实例化管道

执行 GridSearchCV

请告知如何使用下面给出的方法保存模型,我无法保存模型并收到错误“TypeError: can't pickle _thread.RLock objects”

情况1:

案例2:

谢谢

苏拉吉特

0 投票
4 回答
22151 浏览

python - 没有名为“sklearn.neighbors._base”的模块

我最近使用在 jupyter 中安装了 imblearn 包

但我无法导入这个包。

我收到以下错误

环境中的其他包

我检查了 sklearn 包,它包含基本模块,而不是 _base。但是修改它可能不是正确的解决方案。解决此问题的任何其他解决方案。

0 投票
0 回答
144 浏览

python - Auto-Sklearn:是否可以将 imblearn 的指标集成为得分手?

我想使用几何平均值作为指标来优化使用 fit() 方法训练的分类模型。我认为 autosklearn.metrics.make_scorer() 将允许将几何平均值定义为这样的记分器:

因为 imblearn-package 与 sklearn 完全兼容。

但是,在使用上面定义的 gm 对模型进行“拟合”后,sprint 统计数据表明我所做的定义似乎不起作用:

有谁知道为什么 Auto-Sklearn 似乎与 GM 合作,但结果却是 0,0000?我做错什么了吗?除了使用 imblearn 包之外,是否有可能将几何平均值定义为优化模型的指标?据我所知,该指标尚未集成到 sklearn 中(还)?或者有人知道我如何在 Auto-Sklearn 中使用几何平均值吗?

0 投票
0 回答
76 浏览

python - 是否使用缩放的测试数据进行预测?

我有一个不平衡的分类问题。首先,我想缩放数据,然后通过 SMOTE 重新采样。为了防止数据泄漏,我使用了管道。我的代码是:

问题是正类的结果不太好,我认为这与使用未缩放的X_test预测版本有关(我知道不对测试数据使用重采样,但我不确定缩放))。我的代码是正确的还是有任何问题导致这个不有趣的结果?

0 投票
1 回答
233 浏览

python - Python 管道中的条件元素

我想知道是否有可能有一个包含强制性元素和可选元素的管道。可选的是有条件的。例如,您可以拥有一个带有下采样元素的管道,或者您可以拥有相同的管道而不进行下采样。所以

如果你有一个不平衡的数据集,你只有采样部分。但采样部分仍在进行中,只是有条件的。有这样的吗?

0 投票
3 回答
2040 浏览

python - 如何从 imblearn 中的 RandomUnderSampler 获取样本索引

有谁知道在使用 imblearn 的 RandomUnderSampler 进行欠采样后是否/如何获得所选样本的索引?曾经有一个参数“return_indices=True”,现在该参数在新版本中被删除,并被替换为一个属性“sample_indices_”。但是,如果我尝试使用该属性,它就不起作用(参见下面的代码)。我正在使用 imblearn 0.6.2 版。