Information Gain= (Information before split)-(Information after split)
信息增益可以通过上式求得。但我不明白的是,这个信息增益究竟是什么意思?这是否意味着通过根据给定属性或类似的东西进行拆分可以获得或减少了多少信息???
Information Gain= (Information before split)-(Information after split)
信息增益可以通过上式求得。但我不明白的是,这个信息增益究竟是什么意思?这是否意味着通过根据给定属性或类似的东西进行拆分可以获得或减少了多少信息???
信息增益是根据属性拆分数据后实现的熵减少。IG = 熵(分裂前)- 熵(分裂后)。见http://en.wikipedia.org/wiki/Information_gain_in_decision_trees
熵是对存在的不确定性的度量。通过拆分数据,我们试图减少其中的熵并获得有关它的信息。
我们希望通过选择最能减少熵的属性和分割点来最大化信息增益。
如果熵 = 0,则无法从中获得更多信息。
正确写的是
信息增益 = 分裂前的熵 - 分裂后的平均熵
熵与信息的差异是符号。如果您没有太多数据信息,则熵很高。
直觉是统计信息论的直觉。粗略的想法是:每条记录需要多少位来编码类标签分配?如果只剩下一个类,则每条记录需要 0 位。如果您有一个混乱的数据集,则每条记录都需要 1 位。如果这个类是不平衡的,你可以使用(理论上的!)最佳压缩方案来解决这个问题;例如,仅对异常进行编码。为了符合这种直觉,您当然应该使用以 2 为底的对数。
如果分支之后平均熵较低,则认为拆分是好的。然后,您通过拆分数据集获得了关于类标签的信息。IG 值是您为预测类别标签而获得的平均信息位数。