问题标签 [oversampling]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

140 问题

0 投票

1 回答

2788 浏览

python-3.x - AttributeError: 'DataFrame' 对象在使用 SMOTE 时没有属性 'name'

我正在使用 imblearn over_sampling SMOTE 技术来平衡我的不平衡数据集。

这是我的示例代码

因此，当我尝试拟合 SMOTE 模型时，它会显示属性错误。AttributeError: 'DataFrame' object has no attribute 'name' 。有人能帮我解决这个问题吗？

我也安装了库

Windows-10-10.0.15063-SP0 Python 3.6.5 |Anaconda, Inc.| (默认, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] NumPy 1.17.4 SciPy 1.3.2 Scikit-Learn 0.22 以上是安装的版本。

特征和目标输出特征输出目标输出

2019-12-23T09:54:15.017

0 投票

1 回答

864 浏览

r - R 中的 SMOTE-NC。未找到包

我有一个包含 5 个名义变量和 37 个分类变量的数据集。我想在 R 中执行过采样。但是，使用 SMOTE，我不能这样做。我按照 (Chawla, Bowyer and Hall, 2002) 的建议寻找了 SMOTE-NC，但我找不到任何支持它的软件包。如何解决这个问题呢？谢谢。

r oversampling imbalanced-data smote

2019-12-31T15:24:15.257

0 投票

1 回答

306 浏览

statistics - 什么是对高度不平衡的数据集进行采样的正确方法，该数据集在特征相关性和类方差之间具有低水平？

我有一个包含 23 个相关性非常低的特征的数据集。这两个类别之间的差异很小。

这些类别高度不平衡，就像可用于欺诈检测的数据一样。什么是采样这种数据的合适方法？

statistics data-science sampling oversampling imbalanced-data

2020-01-07T13:41:44.703

0 投票

1 回答

616 浏览

python - 在python中对图像数据进行欠采样

欠采样的主要思想是随机删除具有足够观察值的类，以便两个类的比较比率在我们的数据中是显着的。那么，如何在 python 中对图像数据进行欠采样呢？请帮我：（

我从 Kaggle 获取眼底图像数据。有 5 个类别的 35127 张图像。0类：25810数据，1类：2443数据，2类：5292数据，3类：873数据，4类：708数据，

我希望每个班级在第 4 节课之后有多达 708 张图像。如何删除 Python 中的其余图像？

python image-processing oversampling imagedata

2020-01-11T05:10:43.153

0 投票

2 回答

47 浏览

python - 在每个数据框列中创建最频繁值的行

语境

我想用每列最频繁的值创建一个顶行。

当前代码

数据样本

预期结果

python pandas dataframe pandas-groupby oversampling

2020-02-18T02:40:12.617

0 投票

1 回答

186 浏览

python - 使用 Python 创建 R 的公式

我正在编写一个使用 Python 与 R 交互的程序。基本上，我有一些 R 库，我想将它们引入我的 Python 代码中。下载后rpy2，我定义了我想在单独的.R文件脚本中使用的 R 函数。

R 函数要求我们将公式传递给它以应用一些oversampling技术。下面是我写的 R 函数：

我从 python 传递目标变量名称，以及包含所有其他列名称的列表。因为我希望它如下所示： my_target_variable ~ all other columns

但是在这些行中：

如果我的数据中有很多列，则公式并不总是得到公式化。我应该怎么做才能让它始终工作？我用+运算符连接所有列的名称。

python r formula rpy2 oversampling

2020-02-27T11:04:21.907

0 投票

1 回答

530 浏览

r - Smote - 选择 Perc_under 和 Perc_Over

我在 R 中第一次使用 smote

我在大多数类为 0 - 7952346 和少数类为 1- 27230 的火车数据上使用 smote，我想进行下采样，以便我有 1 接近 30000 和 0 接近这个范围 180000-200000。

我无法做到这一点，有人可以帮我解决这个问题，我尝试使用不同的参数，但没有得到想要的正确结果。

r machine-learning downsampling oversampling smote

2020-03-06T18:36:22.880

0 投票

1 回答

388 浏览

r - 我正在尝试使用 ROSE 来帮助采样不平衡。我的 ovun.sample 代码正在创建空值，我该如何解决？

我正在尝试使用 ROSE 来帮助处理不平衡的数据集。我在那里大约 90%，但我的 ovun.sample 代码有问题。当我运行 ovun.sample 代码时，它不会创建“over”、“under”或“both”数据集，这些值在 R 中显示为 NULL（空），而不是数据。对于如何解决此问题，我将不胜感激！

r sampling downsampling oversampling

2020-03-15T16:57:23.053

0 投票

1 回答

844 浏览

python - SMOTE 过采样创建新的数据点

我正在尝试解决不平衡的分类问题，所有输入特征都是分类的。以下是每个特征的值计数：

在 train_test_split 之后对训练数据应用 SMOTE。创建了一些新值，这些值不存在于 X_train 数据集中。

重采样数据集的值计数：

使用 SMOTE 创建了新值，创建了 under_sampling 新值也是如此。这些新值不存在于测试数据集中。

例子：

我的问题：

为什么要创建这些价值观，它们是否具有某种重要性？
如何对付他们？我应该将它们四舍五入还是删除它们
有没有办法在不创建这些新值的情况下执行过采样和欠采样？

python oversampling smote

2020-03-17T11:29:36.933

0 投票

1 回答

3157 浏览

machine-learning - 过采样：SMOTE 参数“比率”

jupyter notebook 让我出错：

init () 得到了一个意外的关键字参数“比率”

我的代码：

smote = SMOTE(ratio = 'minority', random_state=10)

也可以试试： smote = SMOTE(ratio = 0.5, random_state=10) 但它给了我同样的错误信息。

如何解决这个问题？谢谢。

machine-learning cross-validation oversampling imbalanced-data imblearn

2020-03-24T20:33:03.647

1 2 3 4 5 6 7 8 9 10

问题标签 [oversampling]

Reference