VFDT 中 C4.5 的当前实现 ( http://www.cs.washington.edu/dm/vfml/vfdt.html ) 或任何其他实现都使用 C4.5 格式的文件来为构建决策树。据此,属性可以具有以下格式:
连续 如果属性具有连续值。
离散 单词“离散”后跟一个整数,表示属性可以取多少个值。
标识符列表 这是一个具有枚举值的离散属性(这是离散属性的首选方法)。标识符应以逗号分隔。
ignore 意味着该属性应该被忽略 - 它不会被使用。
有谁知道我们如何指定离散值属性,其完整的可能值集太大而无法列出?
例如“IP-Address”属性可以有 Math.Pow(255,4) 可能的离散值;“QueryString”属性可以有无数个可能的值……等等。
C4.5 算法能否处理属性具有 100,000 个离散不同值的情况,或者不知道确切界限但只知道近似值的情况?
谢谢。