0

VFDT 中 C4.5 的当前实现 ( http://www.cs.washington.edu/dm/vfml/vfdt.html ) 或任何其他实现都使用 C4.5 格式的文件来为构建决策树。据此,属性可以具有以下格式:

连续 如果属性具有连续值。

离散 单词“离散”后跟一个整数,表示属性可以取多少个值。

标识符列表 这是一个具有枚举值的离散属性(这是离散属性的首选方法)。标识符应以逗号分隔。

ignore 意味着该属性应该被忽略 - 它不会被使用。

有谁知道我们如何指定离散值属性,其完整的可能值集太大而无法列出?

例如“IP-Address”属性可以有 Math.Pow(255,4) 可能的离散值;“QueryString”属性可以有无数个可能的值……等等。

C4.5 算法能否处理属性具有 100,000 个离散不同值的情况,或者不知道确切界限但只知道近似值的情况?

谢谢。

4

1 回答 1

2

通常的选择是枚举训练集中出现的离散特征的所有值。由于该算法永远无法为训练期间未看到的值收集足够的统计信息,因此无论您如何实现它们都会被忽略。

请注意,无论如何收集此类功能的统计数据非常困难,因此您可能需要考虑不同的表示。特别是,多词的文本字符串可以被标记化并被视为词

于 2013-05-02T14:02:51.910 回答