我的数据不平衡,如下所示,每当我尝试使用 ADASYN 时,它都会显示错误,我们是否需要为此提供任何参数条目?有时它会运行很长时间,但即使在代码运行 40 分钟后也没有响应。
counts percentage
Enquiry Assigned 91284 75.902382
Test Drive Provided 25274 21.015258
Test Drive Arranged 3434 2.855361
Booked 266 0.221178
Test Ride Provided 7 0.005820
请建议我们如何继续使用 python 代码来解决问题。从其他人的推荐中,我听说过
- 可以一次在两个级别之间进行采样,然后可以在同一级别上进行迭代
- 下采样 75% 的那个可能有帮助吗?
- 或使用 skmultilearn 的任何解决方案?
代码:
def makeOverSamplesADASYN(X,y):
#X →Independent Variable in DataFrame\
#y →dependent Variable in Pandas DataFrame format
from imblearn.over_sampling import ADASYN
sm = ADASYN(sampling_strategy='all', random_state=None, n_neighbors=5, n_jobs=1, ratio=None)
X_adassin, y_adassin = sm.fit_resample(X, y)
makeOverSamplesADASYN(X,data_dummyvar['Sales Stage'])
print(X_adassin.shape)
print(y_adassin.shape)'''
o/p=== > 这运行了很长时间,之后没有结果,请建议