python - 过采样会导致模型过拟合吗？

Question

目标属性分布目前是这样的：

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+

我的问题是：

score 1 · Accepted Answer

我的问题是任何过采样方法（手动、重击、adasyn）都将使用可用数据来创建新数据点。

SMOTE（Synthetic Minority Over-sampling TEchnique）即将进入第三步。这是从数据集中创建新的少数类的过程。

SMOTE中的流程如下：

所以，这比过采样要聪明一点。

如果我们用这样的数据来建立分类模型，会不会是过拟合？

正确的答案是PROBABLY。试试看！

这就是为什么我们使用测试集和交叉验证来尝试了解模型是否适用于看不见的数据！

1 回答 1