当我在处理过拟合属性时偶然发现一些不一致时,我只是在搞乱 WEKA 的信息增益属性评估器。在我的关系中,我使用 3 个数字属性和一个在失败和正确数据集之间划分的类属性。该类属性仅依赖于 attr3,而其他两个属性仅具有随机值。这是 ARFF 文件:
@relation TEST
@attribute attr1 numeric
@attribute attr2 numeric
@attribute attr3 numeric
@attribute class {failing,correct}
@data
1, 12.714813, 5000, failing
26, -10000, 0, correct
10, 9.547521, 5000, failing
-10000, 3.699694, 0, correct
38, 6.1541, 5000, failing
在我使用默认设置执行 Information Gain Attribute Evaluator 后,这是输出排名:
=== Attribute Selection on all input data ===
Search Method:
Attribute ranking.
Attribute Evaluator (supervised, Class (nominal): 4 class):
Information Gain Ranking Filter
Ranked attributes:
0.971 3 attr3
0.971 2 attr2
0 1 attr1
Selected attributes: 3,2,1 : 3
现在,属性 3 正确地具有 0.971 的信息增益,它等于关系的熵。用信息增益评估其他两个属性实际上没有意义,因为它们包含高度互信息。但我不明白的是,为什么一个过拟合属性具有最大的信息增益,而另一个具有最小的信息增益。信息增益属性评估器如何处理这些过拟合属性?