1

在 PST 包中,我们使用该值C作为用于修剪树的信息增益函数的截止值。alpha 为 0.05的C值计算如下:

C95 <- qchisq(0.95, 1) / 2

C该值基于 0.05 的 alpha 是什么意思?这是否意味着我们需要至少 95% 确定一个额外的节点与之前的节点相比添加了更多的信息,以便修剪算法保留它?

4

1 回答 1

1

您的问题涉及函数gain="G2"中的使用,并且是关于此增益函数prune阈值的选择。C

用于检查是否可以修剪分支的 G2 增益函数的两倍实际上是似然比检验统计量,它比较了修剪分支前后的树的似然性。在测试分支不添加任何信息的假设下,统计量 2*G2 具有卡方分布。因此,当差异在统计上不显着时,即只要 G2 值不超过给定显着性水平的阈值,就会修剪分支。

alpha 是统计检验中常用的显着性水平。通常为 1% 或 5%。选择 alpha= 0.05 意味着由于样本的随机性,有 5% 的机会错误地不修剪分支。

于 2017-02-26T15:18:35.453 回答