我正在处理我想用 doc2vec 转换的电子邮件内容数据集。这是一个带标签的数据集(垃圾邮件/非垃圾邮件),它是不平衡的(90-10 比率)。我的问题是:在标记电子邮件的内容时,我应该首先过采样(使用 SMOTE),还是可以按原样使用数据集?
问问题
42 次
我正在处理我想用 doc2vec 转换的电子邮件内容数据集。这是一个带标签的数据集(垃圾邮件/非垃圾邮件),它是不平衡的(90-10 比率)。我的问题是:在标记电子邮件的内容时,我应该首先过采样(使用 SMOTE),还是可以按原样使用数据集?