class - 如何评估数据集的类重叠

Question

我正在使用 Weka 为医疗问题开发分类器。这个数据集有类不平衡的情况，我想知道是否也存在类重叠的问题。每条记录有 30 个属性，如何使用 Weka 功能发现类重叠？

score 2 · Accepted Answer

当来自不同类的一些样本具有非常相似的特征时，就会发生类重叠

score 0 · Accepted Answer

要解决类不平衡问题，可以使用 SMOTE。它在 Weka 监督过滤器（实例）中。但是你能解释一下类重叠是什么意思吗？

score 0 · Accepted Answer

我认为您的意思是“类重叠”，存在属于不同类的相似实例。简单地说，您可以删除它们。在 awk 中，您可以执行以下操作：

awk '!NF || !seen[$0]++' inputFile > outputFile

3 回答 3