“oversampling”的相关标签问题

0 投票

1 回答

2413 浏览

python - 在python中平衡的多类分类（过采样）

我有以下问题，有一个分类问题。在 50,000 行的轨道上，在 Y 60 个标签上。但是数据是不平衡的（在一个类中，35000 个值，在其他 59 个类中，15000 个值，其中大约 30 个值）。如果例如，即 X (column_1, column_2, column_3) 和 Y：

并且需要添加“嘈杂”的数据，这样就不会有不平衡，有条件地，所有值都变得相同：

这只是一个玩具例子，但我有很多含义。

2018-06-10T18:47:57.833

0 投票

0 回答

856 浏览

r - 如何在 R 中使用 smotefamily 处理分类变量？

我对 R 中的 smotefamily 包有一些问题。

当我使用 SMOTE 系列（SMOTE、Borderline SMOTE 等）处理分类变量时，无法生成合成示例，因为它们使用少数类样本与其最近邻居之间的距离。但是，当我在 DMwR 包中使用 SMOTE 时，可以使用分类变量。有什么区别以及如何将分类变量与 SMOTE 系列一起使用？我不希望变量的值（变量是“监测站号”和“月”，每个。）是数字（如 10.58811~~），而是分类或至少是整数。

r oversampling

2018-06-20T05:42:47.820

0 投票

1 回答

335 浏览

machine-learning - 使用分类器进行异常检测的 SMOTE 过采样

我有传感器数据，我想在训练集上使用 LOF 进行实时异常检测以检测异常，然后将标记的数据应用于分类器以对新数据点进行分类。我考虑过使用 SMOTE，因为我希望训练数据中有更多的 anamolies 点来克服不平衡的分类问题，但问题是 SMOTE 创建了许多在正常范围内的点。如何在不创建正常数据范围内的样本的情况下进行过采样？

应用 SMOTE 之前的数据图表。

SMOTE 之后的数据

machine-learning scikit-learn oversampling

2018-07-16T12:44:44.160

0 投票

0 回答

265 浏览

r - 无法平衡大型数据集

我在不平衡的数据集上尝试了各种技术，例如过采样、欠采样、ROSE 和两者（过采样和欠采样）来平衡数据集。当我在一个小数据集上应用所有这些技术时，这些技术就完美地工作了

但是当我将所有这些技术应用于大型数据集时，我得到了错误

r oversampling

2018-07-16T13:31:30.897

0 投票

1 回答

3350 浏览

python - 多类分类：连续多列的 SMOTE 过采样

我有一个不平衡的数据集包含在一个名为city_country的数据框中，它由 5 列组成：

推文的内容 =预处理
事件类型（例如，与地震相关的推文 = 'earthquake'、typhoon = 'typhoon' 等） = event_type
发送推文的纬度 = lat
发送推文的经度 =长
事件标签（例如与地震相关的推文 = 1、台风 = 2 等）= event_id

在名为city_country的数据框中，类 ( event_id ) 是不平衡的。在测试不同文本分类器的预测能力之前，为了从推文（预处理）的内容中预测event_id，我想对少数类进行过采样。

重要的是，当我复制属于少数类的条目时，我复制所有 5 列。

到目前为止（错误地）我所做的只是对推文内容（preprocessed和event_id进行过采样。在下面的代码中，我将推文转换为向量（我不想这样做，但据我所知，我必须这样做）和然后过度代表少数类。这只会过度采样向量化的推文（x_words）和 event_id（y）。

据我所知，在 imblearn.over_sampling 中使用SMOTE需要您提供真实值（不是字符串）并且只有 2 个值 - 一个“x”和一个“y”。在这种情况下，“x”是我的向量化推文训练集，“y”是我的事件标签。

有没有办法让我简单地将我的数据框拆分为训练集和测试集，然后对少数类的所有 5 列进行过采样，以便输出是包含所有 5 列的更大数据框？然后我可以使用它来预测 event_id 并希望执行相当于 vlookup 的操作，这样我就可以使用其各自的lat和long值加入推文。

python text-classification oversampling

2018-07-19T12:35:25.290

0 投票

1 回答

576 浏览

machine-learning - 训练集和测试集的类比不平衡会导致验证准确度差吗？

我正在参加一个黑客马拉松，我们应该在给定性别、城市、培训时间、经验、当前公司等特征的情况下预测用户是否对工作感兴趣。

在训练集中，大约有 90% 的人对工作不感兴趣，而只有 10% 的人对工作感兴趣。但是在他们发布的公共测试集中，这两个分类中的每一个都有 50%，我的验证准确率没有超过 55%，而训练准确率为 99%。

测试和训练数据都有缺失值，我使用 RBM 进行估算。

我的问题是：

验证准确性很糟糕，因为类的比例不平衡，还是因为错误地估算了缺失值？

machine-learning deep-learning data-science oversampling

2018-07-20T02:28:31.333

0 投票

0 回答

53 浏览

r - R中的过采样示例错误

我在下面运行 R 中过采样的代码

这对我来说是错误的。任何人都可以请帮忙。

r random-forest oversampling

2018-07-30T10:20:31.587

0 投票

1 回答

1149 浏览

python - 过采样 FITS 图像后从 ra、dec 获取像素坐标

我正在寻找一种方法来定位我的 FITS 图像上的像素坐标，这些坐标对应于过采样后对象的 ra 和 dec 位置（以度为单位）。如果我没有过采样，这会很简单，但我需要。给定一个未改变的 FITS 图像，我可以这样做：

但是，当我对其进行过采样然后尝试查找像素坐标时，它显然不准确，因为 (ra, dec) 对于过采样的图像不再准确。由于我对 5x5 进行过采样，因此我尝试简单地将x, y上面的值乘以 5。但是当我在 ds9 中放大这一点时，它会显示对象偏离中心，所以我认为这不起作用。下面是我对代码的过采样部分，因为它可能有助于看到这一点。这里，data只是我的原始 FITS 图像中包含的数据的 2D numpy 数组。

如果有人对如何在过采样后恢复准确的像素坐标有任何想法，那就太好了。谢谢！

python python-3.x astropy fits oversampling

2018-08-16T22:28:22.297

0 投票

1 回答

1050 浏览

python - 过采样会导致模型过拟合吗？

目标属性分布目前是这样的：

我的问题是：

过采样方法如：manully、smote、adasyn将使用可用数据来创建新数据点？
如果我们用这样的数据来训练一个分类模型，会不会是过拟合？

python model classification oversampling

2018-09-30T14:31:25.777

0 投票

0 回答

1244 浏览

python - 无法安装 imblearn 以使用 SMOTE

我一直在尝试安装 imblearn 以使用 SMOTE，并且我认为它是成功的，但是当我在我的 Jupyter Notebook 中输入这个时from imblearn.over_sampling import SMOTE，我得到了错误ImportError: cannot import name 'SMOTE'。你知道为什么会这样吗？我使用以下命令下载 imblearnconda install -c conda-forge imbalanced-learn并在完成后获得下载确认。

python anaconda jupyter oversampling imblearn

2018-10-15T01:54:56.597

问题标签 [oversampling]

Reference