问题标签 [smote]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
104 浏览

smote - 使用 SMOTE 处理不平衡数据

在执行 SMOTE 时,我收到以下错误。“矩阵错误(如果(is.null(值))逻辑()其他值,nrow = nr,dimnames = list(rn,:'dimnames'[2]的长度不等于数组范围”下面是我的代码bal.m <- SMOTE(默认 ~., (LD.train), perc.over =300,k=5, perc.under =200)

我在发消息吗。请指导

0 投票
1 回答
844 浏览

python - SMOTE 过采样创建新的数据点

我正在尝试解决不平衡的分类问题,所有输入特征都是分类的。以下是每个特征的值计数:

在 train_test_split 之后对训练数据应用 SMOTE。创建了一些新值,这些值不存在于 X_train 数据集中。

重采样数据集的值计数:

使用 SMOTE 创建了新值,创建了 under_sampling 新值也是如此。这些新值不存在于测试数据集中。

例子:

我的问题:

  1. 为什么要创建这些价值观,它们是否具有某种重要性?

  2. 如何对付他们?我应该将它们四舍五入还是删除它们

  3. 有没有办法在不创建这些新值的情况下执行过采样和欠采样?

0 投票
0 回答
64 浏览

r - SMOTE 减少观察次数

我正在尝试对贷款违约数据集进行逻辑回归,并想知道为什么 SMOTE 减少了观察次数。原始数据集有 .226786 个观测值,当我运行 smote 时,观测值总数减少到 53440 个。这是正常的吗?

0 1 26720 26720

谢谢

0 投票
1 回答
3605 浏览

python - 如何根据sklearn中的列值拆分数据

我有一个包含以下列的数据文件

'customer', 'calibrat' - 校准样本 = 1;验证样本 = 0;'流失','churndep','收入','mou',

数据文件包含大约 40000 行,其中 20000 的 calibrat 值为 1。我想将此数据拆分为

我想要的是在我的 X1_train 中应该有校准数据 calibrat = 1 并且在 X1_test 中应该有所有数据来验证 calibrat = 0

0 投票
1 回答
131 浏览

gridsearchcv - 使用 imblearn 管道和 SMOTE 降低分数

我有一个管道:

而 best_score_ 是 0.9981313067607172

但是,如果我从管道中排除重新采样并在外部执行它:

而且我(在多次运行中)得到了更好的结果:0.9999888503305302

在管道外部使用重新采样有什么区别?

0 投票
2 回答
1316 浏览

python - SMOTE with multiple bert inputs

I'm building a multiclass text classification model using Keras and Bert (HuggingFace), but I have a very imbalanced dataset. I've used SMOTE from Sklearn in order to generate additional samples for the underbalanced classes (I have 45 in total), which works fine when I use the input ids from the Bert Tokenizer.

However, I would like to be able to also use smote for the input masks ids, in order to allow the model to determine where the padded values are.

My question is how can I use smote for both input ids and mask ids? I've done the following so far, and the model doesn't complain, but I'm not sure if the resampled masks match the resampled input ids row for row. Smote requires two inputs, inputs and labels, so I've duplicated the process with the same random state, and just returned the required elements:

Is this acceptable? Is there a better way to do this?

0 投票
1 回答
72 浏览

python-3.x - 高度不平衡的分类步骤的步骤。我应该对数据进行上采样和欠采样还是对不平衡类进行上采样

我有一个高度不平衡的二进制(是/否)分类数据集。该数据集目前有大约 0.008% 的“是”。

我需要使用 SMOTE 平衡数据集。

我遇到了两种处理不平衡的方法。在变量上运行 MinMaxScaler 后的以下步骤

这导致数据集的大小从 240 万行减少到 732000 行,并且不平衡从 0.008% 提高到 33.33%

虽然这种方法

这将行数从 240 万行增加到 480 万行,现在不平衡为 50%。

在这些步骤之后,我需要将数据拆分为训练测试数据集......

这里的正确方法是什么?

在选择这些方法之前,我需要考虑哪些因素?

我应该对非采样数据运行 X_test, y_test。这意味着,我拆分数据并仅对训练数据进行上采样/欠采样。

谢谢你。

京东

0 投票
1 回答
555 浏览

python - SMOTE 为所有分类数据集提供数组大小/ValueError

我正在使用 SMOTE-NC 对分类数据进行过采样。我只有 1 个功能和 10500 个样本。

运行以下代码时,我收到错误:

代码:

如果我理解正确,形状X_new应该是 (n_samples, n_features),即 10500 X 1。我不知道为什么在 ValueError 中将其视为 shape=(10500,0)

有人可以在这里帮助我吗?

0 投票
1 回答
175 浏览

r - 当我应用 smote 函数来平衡类时出现错误和警告

我正在尝试应用 smote 函数来平衡我的课程。

这是我的代码:

这是我的警告错误:

这是我拥有的数据结构和类型:

0 投票
0 回答
38 浏览

r - 创建合成数据 - 平衡数据集

我正在分析口袋妖怪的数据集。我想创建一个随机森林来预测口袋妖怪是否可以成为传奇。

现在,我有一个由 118 个观察值和 44 列组成的训练数据集:

如您所见,有虚拟变量,但也有目标类is_legendary

问题在于数据不平衡:与传奇口袋妖怪相关的观察数量明显少于非传奇口袋妖怪。因此,我想通过创建合成数据来平衡数据集。有人告诉我,SMOTE function但我遇到了一个错误。请看下面的整个代码:

错误是: