2

当我在处理过拟合属性时偶然发现一些不一致时,我只是在搞乱 WEKA 的信息增益属性评估器。在我的关系中,我使用 3 个数字属性和一个在失败和正确数据集之间划分的类属性。该类属性仅依赖于 attr3,而其他两个属性仅具有随机值。这是 ARFF 文件:

@relation TEST

@attribute attr1 numeric
@attribute attr2 numeric
@attribute attr3 numeric
@attribute class {failing,correct}

@data
1,      12.714813, 5000, failing
26,     -10000,    0,    correct
10,     9.547521,  5000, failing
-10000, 3.699694,  0,    correct
38,     6.1541,    5000, failing

在我使用默认设置执行 Information Gain Attribute Evaluator 后,这是输出排名:

=== Attribute Selection on all input data ===

Search Method:
    Attribute ranking.

Attribute Evaluator (supervised, Class (nominal): 4 class):
    Information Gain Ranking Filter

Ranked attributes:
 0.971  3 attr3
 0.971  2 attr2
 0      1 attr1

Selected attributes: 3,2,1 : 3

现在,属性 3 正确地具有 0.971 的信息增益,它等于关系的熵。用信息增益评估其他两个属性实际上没有意义,因为它们包含高度互信息。但我不明白的是,为什么一个过拟合属性具有最大的信息增益,而另一个具有最小的信息增益。信息增益属性评估器如何处理这些过拟合属性?

4

0 回答 0