我正在尝试使用 C4.5 算法为学校项目创建决策树。决策树为Haberman's Survival Data Set,属性信息如下。
Attribute Information:
1. Age of patient at time of operation (numerical)
2. Patient's year of operation (year - 1900, numerical)
3. Number of positive axillary nodes detected (numerical)
4. Survival status (class attribute)
1 = the patient survived 5 years or longer
2 = the patient died within 5 year
我们需要实现一个决策树,其中每个叶子都必须有一个不同的结果(意味着该叶子的熵应该为 0),但是有六个实例具有相同的属性,但结果不同。
例如:
66,58,0,2
66,58,0,1
C4.5算法在这种情况下做了什么,我到处搜索但找不到任何信息。
谢谢。