我试图找出 C4.5 算法如何确定数字属性的阈值。我已经研究过并且无法理解,在大多数地方我都找到了这些信息:
训练样本首先根据所考虑的属性 Y 的值进行排序。这些值的数量是有限的,所以让我们按排序顺序将它们表示为 {v1,v2, ...,vm}。任何介于 vi 和 vi+1 之间的阈值都将具有相同的效果,将案例分为属性 Y 的值在 {v1, v2, ..., vi} 中的案例和属性 Y 的值在 {vi+1, vi} 中的案例+2,……,vm}。因此在 Y 上只有 m-1 个可能的分裂,所有这些都应该系统地检查以获得最佳分裂。
通常选择每个区间的中点:(vi +vi+1)/2 作为代表阈值。C4.5 为每个区间 {vi, vi+1} 选择一个较小的值 vi 作为阈值,而不是中点本身。
我正在研究 Play/Dont Play(值表)的示例,但不明白当状态晴天时如何获得属性湿度的数字 75(树生成),因为晴天状态下的湿度值是 { 70,85,90,95}。
有人知道吗?