我正在使用 Weka 为医疗问题开发分类器。这个数据集有类不平衡的情况,我想知道是否也存在类重叠的问题。每条记录有 30 个属性,如何使用 Weka 功能发现类重叠?
问问题
2049 次
3 回答
2
当来自不同类的一些样本具有非常相似的特征时,就会发生类重叠
- 聚类您的数据集。
- 如果您的实例属于同一个集群,那么它们非常相似。
- 然后使用实际的类成员找到错误率。
- 如果您的实例属于同一个集群但它们的类不同,那么您找到了您要问的内容。
于 2012-04-10T06:06:20.550 回答
0
要解决类不平衡问题,可以使用 SMOTE。它在 Weka 监督过滤器(实例)中。但是你能解释一下类重叠是什么意思吗?
于 2012-04-06T06:48:20.557 回答
0
我认为您的意思是“类重叠”,存在属于不同类的相似实例。简单地说,您可以删除它们。在 awk 中,您可以执行以下操作:
awk '!NF || !seen[$0]++' inputFile > outputFile
于 2017-11-14T17:09:49.783 回答