问题标签 [smote]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2788 浏览

python-3.x - AttributeError: 'DataFrame' 对象在使用 SMOTE 时没有属性 'name'

我正在使用 imblearn over_sampling SMOTE 技术来平衡我的不平衡数据集。

这是我的示例代码

因此,当我尝试拟合 SMOTE 模型时,它会显示属性错误。AttributeError: 'DataFrame' object has no attribute 'name' 。有人能帮我解决这个问题吗?

我也安装了库

Windows-10-10.0.15063-SP0 Python 3.6.5 |Anaconda, Inc.| (默认, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] NumPy 1.17.4 SciPy 1.3.2 Scikit-Learn 0.22 以上是安装的版本。

特征和目标输出 特征输出 目标输出

0 投票
1 回答
267 浏览

dask - 在 DASK RandomizedSearchCV 中实现 SMOTEENN

我成功地在管道中使用 SMOTEENN 和 RF 实现了调整模型。像这样:

在加载数据并获得X_trainX_testy_trainy_test矩阵后,我成功地执行了 sklearn RandomizedSearch,如下所示:

我的问题是:谁能帮我弄清楚为什么我不能用 Dask 的 RandomizedSearchCV 做同样的事情?这是我得到的代码和错误:

为什么它适用于 sklearn 的 RandomizedSearchCV 而不是 dask 的RandomizedSearchCV

我将所有库都升级到了最新版本。我正在使用 Python 3.6.9(我也在另一台运行 Python 3.7.3 的机器上尝试过,并得到了同样的错误)。

0 投票
1 回答
864 浏览

r - R 中的 SMOTE-NC。未找到包

我有一个包含 5 个名义变量和 37 个分类变量的数据集。我想在 R 中执行过采样。但是,使用 SMOTE,我不能这样做。我按照 (Chawla, Bowyer and Hall, 2002) 的建议寻找了 SMOTE-NC,但我找不到任何支持它的软件包。如何解决这个问题呢?谢谢。

0 投票
0 回答
157 浏览

machine-learning - 对整个数据集或每个小批量进行上采样

我正在尝试在一个非常大的不平衡数据集上训练我的 convNet。将数据完全加载到内存并对整个数据集进行上采样将非常困难。

相反,我想以小批量加载数据并对每个小批量进行上采样。这会是进行重采样和训练的有效方法吗?

我很感激任何反馈!

0 投票
1 回答
1145 浏览

scikit-learn - 不平衡的数据集 - 如何通过网格搜索优化超参数?

我想通过对不平衡数据集使用网格搜索来优化 SVC 的超参数 C 和 Gamma。到目前为止,我使用了 class_weights='balanced' 并根据 f1 分数的平均值选择了最佳超参数。但是,数据集非常不平衡,即如果我选择了 cv=10 的 GridSearchCV,那么验证数据中没有表示一些少数类。我正在考虑使用 SMOTE,但我在这里看到了我必须设置 k_neighbors=1 的问题,因为在某些少数类中,通常只有 1-2 个样本。有没有人有提示如何在这种情况下优化超参数?有没有其他选择?

非常感谢每一个提示

0 投票
1 回答
919 浏览

python - 回归的 smote 变异问题

我正在估计数据不足和不平衡的门票销售。为了解决这个问题,我使用了 smogn 包中的 smoter(smote for regression)。但是每次我运行我的模型时,我对我的目标都有不同的预测。我认为 smoter 每次都会生成不同的输出数据。有没有办法解决这个随机状态?

请指导我可以在这里做什么,下面是代码片段。

0 投票
0 回答
56 浏览

python - Python GridSearchCV smote 优化错误

任何人都可以帮助我解决我在运行网格搜索时收到的错误。我无法解决此错误。

我的代码:

我收到此错误:

TypeError:链的所有中间步骤应该是实现 fit 和 transform 或 fit_resample 的估计器(但不是两者),或者是字符串 'passthrough' '0.005' (type )没有)

0 投票
0 回答
24 浏览

python - 我正在处理一个不平衡的数据集。应用 SMOTE 算法对少数类进行上采样会产生相同的准确性和 roc_auc_score 吗?

以下代码显示了在 SMOTE 生成的数据集上进行训练时,准确度和 roc_auc_score 是如何相同的。

0.8015075376884422
0.8015075376884422

而在没有 SMOTE 的相同分类器上训练数据集时会给出不同的结果

0.7996592361209712
0.7183922969169426

0 投票
2 回答
4557 浏览

python - 在 SMOTE 之后保留 pandas 数据帧结构,在 python 中过采样

问题:在实现 SMOTE(一种过采样)时,我的数据框正在转换为 numpy 数组)。

Test_train_split

在 SMOTE 之后,X_train 的数据类型从 pandas 数据帧变为 numpy 数组

预期输出 我想在 SMOTE 之后保留 X_train 和 X_test 的数据帧结构。怎么做?

0 投票
1 回答
530 浏览

r - Smote - 选择 Perc_under 和 Perc_Over

我在 R 中第一次使用 smote

我在大多数类为 0 - 7952346 和少数类为 1- 27230 的火车数据上使用 smote,我想进行下采样,以便我有 1 接近 30000 和 0 接近这个范​​围 180000-200000。

我无法做到这一点,有人可以帮我解决这个问题,我尝试使用不同的参数,但没有得到想要的正确结果。