问题标签 [smote]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - AttributeError: 'DataFrame' 对象在使用 SMOTE 时没有属性 'name'
我正在使用 imblearn over_sampling SMOTE 技术来平衡我的不平衡数据集。
这是我的示例代码
因此,当我尝试拟合 SMOTE 模型时,它会显示属性错误。AttributeError: 'DataFrame' object has no attribute 'name' 。有人能帮我解决这个问题吗?
我也安装了库
Windows-10-10.0.15063-SP0 Python 3.6.5 |Anaconda, Inc.| (默认, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] NumPy 1.17.4 SciPy 1.3.2 Scikit-Learn 0.22 以上是安装的版本。
dask - 在 DASK RandomizedSearchCV 中实现 SMOTEENN
我成功地在管道中使用 SMOTEENN 和 RF 实现了调整模型。像这样:
在加载数据并获得X_train
、X_test
、y_train
和y_test
矩阵后,我成功地执行了 sklearn RandomizedSearch,如下所示:
我的问题是:谁能帮我弄清楚为什么我不能用 Dask 的 RandomizedSearchCV 做同样的事情?这是我得到的代码和错误:
为什么它适用于 sklearn 的 RandomizedSearchCV 而不是 dask 的RandomizedSearchCV?
我将所有库都升级到了最新版本。我正在使用 Python 3.6.9(我也在另一台运行 Python 3.7.3 的机器上尝试过,并得到了同样的错误)。
r - R 中的 SMOTE-NC。未找到包
我有一个包含 5 个名义变量和 37 个分类变量的数据集。我想在 R 中执行过采样。但是,使用 SMOTE,我不能这样做。我按照 (Chawla, Bowyer and Hall, 2002) 的建议寻找了 SMOTE-NC,但我找不到任何支持它的软件包。如何解决这个问题呢?谢谢。
machine-learning - 对整个数据集或每个小批量进行上采样
我正在尝试在一个非常大的不平衡数据集上训练我的 convNet。将数据完全加载到内存并对整个数据集进行上采样将非常困难。
相反,我想以小批量加载数据并对每个小批量进行上采样。这会是进行重采样和训练的有效方法吗?
我很感激任何反馈!
scikit-learn - 不平衡的数据集 - 如何通过网格搜索优化超参数?
我想通过对不平衡数据集使用网格搜索来优化 SVC 的超参数 C 和 Gamma。到目前为止,我使用了 class_weights='balanced' 并根据 f1 分数的平均值选择了最佳超参数。但是,数据集非常不平衡,即如果我选择了 cv=10 的 GridSearchCV,那么验证数据中没有表示一些少数类。我正在考虑使用 SMOTE,但我在这里看到了我必须设置 k_neighbors=1 的问题,因为在某些少数类中,通常只有 1-2 个样本。有没有人有提示如何在这种情况下优化超参数?有没有其他选择?
非常感谢每一个提示
python - 回归的 smote 变异问题
我正在估计数据不足和不平衡的门票销售。为了解决这个问题,我使用了 smogn 包中的 smoter(smote for regression)。但是每次我运行我的模型时,我对我的目标都有不同的预测。我认为 smoter 每次都会生成不同的输出数据。有没有办法解决这个随机状态?
请指导我可以在这里做什么,下面是代码片段。
python - Python GridSearchCV smote 优化错误
任何人都可以帮助我解决我在运行网格搜索时收到的错误。我无法解决此错误。
我的代码:
我收到此错误:
TypeError:链的所有中间步骤应该是实现 fit 和 transform 或 fit_resample 的估计器(但不是两者),或者是字符串 'passthrough' '0.005' (type )没有)
python - 我正在处理一个不平衡的数据集。应用 SMOTE 算法对少数类进行上采样会产生相同的准确性和 roc_auc_score 吗?
以下代码显示了在 SMOTE 生成的数据集上进行训练时,准确度和 roc_auc_score 是如何相同的。
0.8015075376884422
0.8015075376884422
而在没有 SMOTE 的相同分类器上训练数据集时会给出不同的结果
0.7996592361209712
0.7183922969169426
python - 在 SMOTE 之后保留 pandas 数据帧结构,在 python 中过采样
问题:在实现 SMOTE(一种过采样)时,我的数据框正在转换为 numpy 数组)。
Test_train_split
在 SMOTE 之后,X_train 的数据类型从 pandas 数据帧变为 numpy 数组
预期输出 我想在 SMOTE 之后保留 X_train 和 X_test 的数据帧结构。怎么做?
r - Smote - 选择 Perc_under 和 Perc_Over
我在 R 中第一次使用 smote
我在大多数类为 0 - 7952346 和少数类为 1- 27230 的火车数据上使用 smote,我想进行下采样,以便我有 1 接近 30000 和 0 接近这个范围 180000-200000。
我无法做到这一点,有人可以帮我解决这个问题,我尝试使用不同的参数,但没有得到想要的正确结果。