问题标签 [oversampling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2788 浏览

python-3.x - AttributeError: 'DataFrame' 对象在使用 SMOTE 时没有属性 'name'

我正在使用 imblearn over_sampling SMOTE 技术来平衡我的不平衡数据集。

这是我的示例代码

因此,当我尝试拟合 SMOTE 模型时,它会显示属性错误。AttributeError: 'DataFrame' object has no attribute 'name' 。有人能帮我解决这个问题吗?

我也安装了库

Windows-10-10.0.15063-SP0 Python 3.6.5 |Anaconda, Inc.| (默认, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] NumPy 1.17.4 SciPy 1.3.2 Scikit-Learn 0.22 以上是安装的版本。

特征和目标输出 特征输出 目标输出

0 投票
1 回答
864 浏览

r - R 中的 SMOTE-NC。未找到包

我有一个包含 5 个名义变量和 37 个分类变量的数据集。我想在 R 中执行过采样。但是,使用 SMOTE,我不能这样做。我按照 (Chawla, Bowyer and Hall, 2002) 的建议寻找了 SMOTE-NC,但我找不到任何支持它的软件包。如何解决这个问题呢?谢谢。

0 投票
1 回答
306 浏览

statistics - 什么是对高度不平衡的数据集进行采样的正确方法,该数据集在特征相关性和类方差之间具有低水平?

我有一个包含 23 个相关性非常低的特征的数据集。这两个类别之间的差异很小。

这些类别高度不平衡,就像可用于欺诈检测的数据一样。什么是采样这种数据的合适方法?

0 投票
1 回答
616 浏览

python - 在python中对图像数据进行欠采样

欠采样的主要思想是随机删除具有足够观察值的类,以便两个类的比较比率在我们的数据中是显着的。那么,如何在 python 中对图像数据进行欠采样呢?请帮我:(

我从 Kaggle 获取眼底图像数据。有 5 个类别的 35127 张图像。0类:25810数据,1类:2443数据,2类:5292数据,3类:873数据,4类:708数据,

我希望每个班级在第 4 节课之后有多达 708 张图像。如何删除 Python 中的其余图像?

0 投票
2 回答
47 浏览

python - 在每个数据框列中创建最频繁值的行

语境

我想用每列最频繁的值创建一个顶行。

当前代码

数据样本

预期结果

0 投票
1 回答
186 浏览

python - 使用 Python 创建 R 的公式

我正在编写一个使用 Python 与 R 交互的程序。基本上,我有一些 R 库,我想将它们引入我的 Python 代码中。下载后rpy2,我定义了我想在单独的.R文件脚本中使用的 R 函数。

R 函数要求我们将公式传递给它以应用一些oversampling技术。下面是我写的 R 函数:

我从 python 传递目标变量名称,以及包含所有其他列名称的列表。因为我希望它如下所示: my_target_variable ~ all other columns

但是在这些行中:

如果我的数据中有很多列,则公式并不总是得到公式化。我应该怎么做才能让它始终工作?我用+运算符连接所有列的名称。

0 投票
1 回答
530 浏览

r - Smote - 选择 Perc_under 和 Perc_Over

我在 R 中第一次使用 smote

我在大多数类为 0 - 7952346 和少数类为 1- 27230 的火车数据上使用 smote,我想进行下采样,以便我有 1 接近 30000 和 0 接近这个范​​围 180000-200000。

我无法做到这一点,有人可以帮我解决这个问题,我尝试使用不同的参数,但没有得到想要的正确结果。

0 投票
1 回答
388 浏览

r - 我正在尝试使用 ROSE 来帮助采样不平衡。我的 ovun.sample 代码正在创建空值,我该如何解决?

我正在尝试使用 ROSE 来帮助处理不平衡的数据集。我在那里大约 90%,但我的 ovun.sample 代码有问题。当我运行 ovun.sample 代码时,它不会创建“over”、“under”或“both”数据集,这些值在 R 中显示为 NULL(空),而不是数据。对于如何解决此问题,我将不胜感激!

0 投票
1 回答
844 浏览

python - SMOTE 过采样创建新的数据点

我正在尝试解决不平衡的分类问题,所有输入特征都是分类的。以下是每个特征的值计数:

在 train_test_split 之后对训练数据应用 SMOTE。创建了一些新值,这些值不存在于 X_train 数据集中。

重采样数据集的值计数:

使用 SMOTE 创建了新值,创建了 under_sampling 新值也是如此。这些新值不存在于测试数据集中。

例子:

我的问题:

  1. 为什么要创建这些价值观,它们是否具有某种重要性?

  2. 如何对付他们?我应该将它们四舍五入还是删除它们

  3. 有没有办法在不创建这些新值的情况下执行过采样和欠采样?

0 投票
1 回答
3157 浏览

machine-learning - 过采样:SMOTE 参数“比率”

jupyter notebook 让我出错:

init () 得到了一个意外的关键字参数“比率”

我的代码:

smote = SMOTE(ratio = 'minority', random_state=10)

也可以试试: smote = SMOTE(ratio = 0.5, random_state=10) 但它给了我同样的错误信息。

如何解决这个问题?谢谢。