问题标签 [oversampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - AttributeError: 'DataFrame' 对象在使用 SMOTE 时没有属性 'name'
我正在使用 imblearn over_sampling SMOTE 技术来平衡我的不平衡数据集。
这是我的示例代码
因此,当我尝试拟合 SMOTE 模型时,它会显示属性错误。AttributeError: 'DataFrame' object has no attribute 'name' 。有人能帮我解决这个问题吗?
我也安装了库
Windows-10-10.0.15063-SP0 Python 3.6.5 |Anaconda, Inc.| (默认, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)] NumPy 1.17.4 SciPy 1.3.2 Scikit-Learn 0.22 以上是安装的版本。
r - R 中的 SMOTE-NC。未找到包
我有一个包含 5 个名义变量和 37 个分类变量的数据集。我想在 R 中执行过采样。但是,使用 SMOTE,我不能这样做。我按照 (Chawla, Bowyer and Hall, 2002) 的建议寻找了 SMOTE-NC,但我找不到任何支持它的软件包。如何解决这个问题呢?谢谢。
statistics - 什么是对高度不平衡的数据集进行采样的正确方法,该数据集在特征相关性和类方差之间具有低水平?
我有一个包含 23 个相关性非常低的特征的数据集。这两个类别之间的差异很小。
这些类别高度不平衡,就像可用于欺诈检测的数据一样。什么是采样这种数据的合适方法?
python - 在python中对图像数据进行欠采样
欠采样的主要思想是随机删除具有足够观察值的类,以便两个类的比较比率在我们的数据中是显着的。那么,如何在 python 中对图像数据进行欠采样呢?请帮我:(
我从 Kaggle 获取眼底图像数据。有 5 个类别的 35127 张图像。0类:25810数据,1类:2443数据,2类:5292数据,3类:873数据,4类:708数据,
我希望每个班级在第 4 节课之后有多达 708 张图像。如何删除 Python 中的其余图像?
python - 在每个数据框列中创建最频繁值的行
语境
我想用每列最频繁的值创建一个顶行。
当前代码
数据样本
预期结果
python - 使用 Python 创建 R 的公式
我正在编写一个使用 Python 与 R 交互的程序。基本上,我有一些 R 库,我想将它们引入我的 Python 代码中。下载后rpy2
,我定义了我想在单独的.R
文件脚本中使用的 R 函数。
R 函数要求我们将公式传递给它以应用一些oversampling
技术。下面是我写的 R 函数:
我从 python 传递目标变量名称,以及包含所有其他列名称的列表。因为我希望它如下所示:
my_target_variable ~ all other columns
但是在这些行中:
如果我的数据中有很多列,则公式并不总是得到公式化。我应该怎么做才能让它始终工作?我用+
运算符连接所有列的名称。
r - Smote - 选择 Perc_under 和 Perc_Over
我在 R 中第一次使用 smote
我在大多数类为 0 - 7952346 和少数类为 1- 27230 的火车数据上使用 smote,我想进行下采样,以便我有 1 接近 30000 和 0 接近这个范围 180000-200000。
我无法做到这一点,有人可以帮我解决这个问题,我尝试使用不同的参数,但没有得到想要的正确结果。
r - 我正在尝试使用 ROSE 来帮助采样不平衡。我的 ovun.sample 代码正在创建空值,我该如何解决?
我正在尝试使用 ROSE 来帮助处理不平衡的数据集。我在那里大约 90%,但我的 ovun.sample 代码有问题。当我运行 ovun.sample 代码时,它不会创建“over”、“under”或“both”数据集,这些值在 R 中显示为 NULL(空),而不是数据。对于如何解决此问题,我将不胜感激!
python - SMOTE 过采样创建新的数据点
我正在尝试解决不平衡的分类问题,所有输入特征都是分类的。以下是每个特征的值计数:
在 train_test_split 之后对训练数据应用 SMOTE。创建了一些新值,这些值不存在于 X_train 数据集中。
重采样数据集的值计数:
使用 SMOTE 创建了新值,创建了 under_sampling 新值也是如此。这些新值不存在于测试数据集中。
例子:
我的问题:
为什么要创建这些价值观,它们是否具有某种重要性?
如何对付他们?我应该将它们四舍五入还是删除它们
有没有办法在不创建这些新值的情况下执行过采样和欠采样?
machine-learning - 过采样:SMOTE 参数“比率”
jupyter notebook 让我出错:
init () 得到了一个意外的关键字参数“比率”
我的代码:
smote = SMOTE(ratio = 'minority', random_state=10)
也可以试试:
smote = SMOTE(ratio = 0.5, random_state=10)
但它给了我同样的错误信息。
如何解决这个问题?谢谢。