我正在使用 smoter 来平衡我的回归数据。我有 130k 个样本、3 个特征列和 1 个目标列。Smoter 需要很长时间才能平衡数据。例如,通过学习分类,它需要几秒钟。我做错了什么还是只是数据的大小?smoter 估计平衡所有数据的时间约为 20 小时。我还检查了例如 20% 的数据的情况如何,因此 13k 个样本,估计时间约为 2 小时......
import smogn
smogn.smoter(
## main arguments
data = df_gonzalez_healthy, ## pandas dataframe
y = 'healthy', ## string ('header name')
k = 9, ## positive integer (k < n)
samp_method = 'extreme', ## string ('balance' or 'extreme')
## phi relevance arguments
rel_thres = 0.80, ## positive real number (0 < R < 1)
rel_method = 'auto', ## string ('auto' or 'manual')
rel_xtrm_type = 'high', ## string ('low' or 'both' or 'high')
rel_coef = 2.25 ## positive real number (0 < R)
)