以下是我试图在其中找到基于sex和的条件生存概率的泰坦尼克号数据集fare。Sex是分类变量,fare是连续变量。
library(PASWR2)
library(magrittr)
library(data.table)
# convert dataset from data frame to data table
titanic3 <- copy(TITANIC3)
setDT(titanic3)
以下语句找到 的确切值的概率fare,但是,我想根据fare列的概率分布找到它。
titanic3[, survival_prob := round(100 * mean(survived), 1), by = .(fare, sex)]
我试图将fare变量从连续变量转换为分类变量,然后计算概率,结果有些准确,但是,概率会根据我在制作分类变量时创建的箱的大小而发生很大变化。
有更好的方法吗?
谢谢。