3

我正在使用 Weka 为医疗问题开发分类器。这个数据集有类不平衡的情况,我想知道是否也存在类重叠的问题。每条记录有 30 个属性,如何使用 Weka 功能发现类重叠?

4

3 回答 3

2

当来自不同类的一些样本具有非常相似的特征时,就会发生类重叠

  1. 聚类您的数据集。
  2. 如果您的实例属于同一个集群,那么它们非常相似。
  3. 然后使用实际的类成员找到错误率。
  4. 如果您的实例属于同一个集群但它们的类不同,那么您找到了您要问的内容。
于 2012-04-10T06:06:20.550 回答
0

要解决类不平衡问题,可以使用 SMOTE。它在 Weka 监督过滤器(实例)中。但是你能解释一下类重叠是什么意思吗?

于 2012-04-06T06:48:20.557 回答
0

我认为您的意思是“类重叠”,存在属于不同类的相似实例。简单地说,您可以删除它们。在 awk 中,您可以执行以下操作:

awk '!NF || !seen[$0]++' inputFile > outputFile

于 2017-11-14T17:09:49.783 回答