使用“打高尔夫球”或“打球”数据(列在底部),选择根节点,我们查看 Outlook、温度、湿度和风,看看哪个具有最高的 GainRatio。
现在,Outlook 将被选为 GainRatio 最高的属性。但是,我很困惑 Humidity (连续属性)选择了具有GainRatio=0.1087的分割点80,而65具有更高的GainRatio=0.1285。分割点 80 确实具有较高的增益,但没有增益比率。
我看过文献粗略地说“选择连续属性的分裂点作为获得最大收益的那个”......这对我来说似乎违反直觉,分裂点仅基于增益,而不是在比较所有属性时选择最高的 GainRatio 作为下一个决策节点。
我希望在这里得到一些澄清。
谢谢。
计算如下:
展望:
增益 = 0.2467
SplitInfo = 1.5774
增益比 = 0.1564
温度:
增益 = 0.0292
SplitInfo = 1.5566
增益比 = 0.0187
湿度:
可能的分割点 = { 65, 70, 75, 78, 80, 85, 90, 95, 96 }
拆分 65:
增益 = 0.0477
拆分信息 = 0.3712
增益比 = 0.1285
拆分 80:
增益 = 0.1022
拆分信息 = 0.9402
增益比 = 0.1087
风:
增益 = 0.0481
拆分信息 = 0.9852
增益比 = 0.0488
数据:
Outlook Temperature Humidity Wind Play
--------------------------------------------
sun hot 85 low no
sun hot 90 high no
overcast hot 78 low yes
rain sweet 96 low yes
rain cold 80 low yes
rain cold 70 high no
overcast cold 65 high yes
sun sweet 95 low no
sun cold 70 low yes
rain sweet 80 low yes
sun sweet 70 high yes
overcast sweet 90 high yes
overcast hot 75 low yes
rain sweet 80 high no