1

使用“打高尔夫球”或“打球”数据(列在底部),选择根节点,我们查看 Outlook、温度、湿度和风,看看哪个具有最高的 GainRatio。

现在,Outlook 将被选为 GainRatio 最高的属性。但是,我很困惑 Humidity (连续属性)选择了具有GainRatio=0.1087的分割点80,而65具有更高的GainRatio=0.1285。分割点 80 确实具有较高的增益,但没有增益比率。

我看过文献粗略地说“选择连续属性的分裂点作为获得最大收益的那个”......这对我来说似乎违反直觉,分裂点仅基于增益,而不是在比较所有属性时选择最高的 GainRatio 作为下一个决策节点。

我希望在这里得到一些澄清。

谢谢。

计算如下:

展望:
增益 = 0.2467
SplitInfo = 1.5774
增益比 = 0.1564

温度:
增益 = 0.0292
SplitInfo = 1.5566
增益比 = 0.0187

湿度:
可能的分割点 = { 65, 70, 75, 78, 80, 85, 90, 95, 96 }

拆分 65:
增益 = 0.0477
拆分信息 = 0.3712
增益比 = 0.1285

拆分 80:
增益 = 0.1022
拆分信息 = 0.9402
增益比 = 0.1087

风:
增益 = 0.0481
拆分信息 = 0.9852
增益比 = 0.0488

数据:

Outlook  Temperature  Humidity  Wind    Play
--------------------------------------------
sun        hot          85      low     no
sun        hot          90      high    no
overcast   hot          78      low     yes
rain       sweet        96      low     yes
rain       cold         80      low     yes
rain       cold         70      high    no
overcast   cold         65      high    yes
sun        sweet        95      low     no
sun        cold         70      low     yes
rain       sweet        80      low     yes
sun        sweet        70      high    yes
overcast   sweet        90      high    yes
overcast   hot          75      low     yes
rain       sweet        80      high    no
4

1 回答 1

0

信息增益比用于通过在选择属性时考虑分支的数量和大小来减少对具有大量值的属性的偏差。在这里,我们已经选择了属性。因此,我们应该尝试最大化信息增益而不是信息增益比。

于 2017-02-20T15:30:15.907 回答