r - 为什么决策树的结果与卡方检验的重要性不同？

Question

我对决策树还很陌生。当我在二进制、分类变量和家庭规模之间进行卡方检验时，我使用 R 中“fifer”包中的 Bonferroni 控制方法从事后分析中得到以下 p 值和随后的成对 p 值，其中使用 Fisher 检验：

X-squared = 29.546, df = 4, p-value = 6.055e-06

   comparison  raw.p    adj.p
1     0 vs. 1   0.0000 0.0000
2     0 vs. 2   0.2254 0.3220
3     0 vs. 3   0.5956 0.6618
4     0 vs. 4   0.1354 0.2707
5     1 vs. 2   0.5475 0.6618
6     1 vs. 3   0.0367 0.1223
7     1 vs. 4   0.0028 0.0140
8     2 vs. 3   0.2076 0.3220
9     2 vs. 4   0.0579 0.1448
10    3 vs. 4   0.6815 0.6815

然而，当我基于相同的数据创建决策树时，使用'method = “class”'，并在 R 的 rpart 包中使用 cp = .01 的 gini 分割标准，树以家庭大小 1 分割（因为我会根据上表预期），然后是 3（不是我根据上表所期望的），然后是 2。我曾预计树分裂与卡方表对齐，这意味着它会分裂重要性顺序，即在 1 处拆分然后在 4 处拆分。这是不正确的思路吗？如果是这样，为什么？我的印象是这两种方法都使用相同的测试来确定重要性，并且决策树会相应地拆分，但这似乎不正确。

我已经在 Stackoverflow 以及其他在线地方进行了研究。我遇到了这篇文章，这似乎证实了我的想法，但我仍然不确定为什么我会得到不同的结果。

r - 为什么决策树的结果与卡方检验的重要性不同？

0 回答 0

Related

Reference