1

decision trees当我向下移动分支时,我对它们还很陌生,并且在解释它们时遇到了一些麻烦。关于在 R 上绘制的图,我有几个问题。响应变量是Survived( Yes/ ),它是根据年龄、票价、兄弟姐妹的数量和父母的数量来预测的,我使用 Kaggle 的数据No在下面附加了一个决策树-Titanic放。

  1. 绿色/蓝色的不同颜色是什么意思?
  2. 如何解释叶节点?
  3. 据我了解,最高节点解释为 38% 幸存,62% 没有幸存,并且 100% 的人口都在那个桶中。如果我向右移动......我将如何解释 Bucket #3?如果我继续前进,#6 号桶?等等等等...

泰坦尼克号决策树

4

1 回答 1

0

1) 一个节点根据该节点对应的多数类进行着色。具有多数类标签no(未幸存)的节点为绿色,否则为蓝色(yes或幸存)。

2)让我们解释一下底部最左边的叶子节点。83%对应于节点的数据点具有类标签no17%类标签yes。该节点包含62%来自整个数据集的数据点。

3)桶#3可以类似地解释:26%对应于节点的数据点具有类标签no74%类标签yes。该节点包含35%来自整个数据集的数据点。如果计算no节点#2 和#3 的标签的加权比例,你会得到0.65*0.81+0.35*0.26=0.6175~0.62,它是根节点中包含标签的数据的比例no

于 2017-02-09T19:04:52.113 回答