1

我正在研究文本分类问题。我正在使用 imblearn 模块的 TomekLinks 类对我的数据进行重新采样。但是在调用 TomekLinks 类程序的 fit_sample(X,y) 方法后,即使我等待 30 分钟也不执行任何操作。我的数据集是 1800000 条记录长(文本数据)。这是代码片段

从 imblearn.under_sampling 导入 TomekLinks

tl = TomekLinks(return_indices=True, ratio='majority',random_state=42) X_tl, y_tl = tl.sample(train_x,y_binary)

谁能帮忙解释一下为什么要花这么长时间?

此外,当我单独执行 tl.fit() 时,它会在几秒钟内完成,但是当我调用 tl.sample() 方法时,会出现错误,即 TomekLinks 中没有名为 sample 的属性

4

0 回答 0