在 R 上使用该importance()
函数时,randomForest
您可以获得最重要的预测变量列表。
我想知道如何判断哪些预测变量与特定二元结果中的 1 个相关联?(即哪些预测因子与疾病结果相关,哪些预测因子与无疾病结果相关)。
这是我获取重要预测变量列表的代码:
# Make a data frame with predictor names and their importance
imp_RF_model <- importance(RF_model)
imp_RF_model <- data.frame(predictors = rownames(imp_RF_model), imp_RF_model)
# Order the predictor levels by importance
imp_sort_RF_model <- arrange(imp_RF_model, desc(MeanDecreaseGini))
imp_sort_RF_model$predictors <- factor(imp_sort_RF_model$predictors, levels = imp_sort_RF_model$predictors)
# Select the top 20 predictors
imp_20_RF_model <- imp_sort_RF_model[1:20, ]
例如,如果蛋白 A 是一个强预测因子,我想知道高水平的蛋白 A 是否与疾病相关,或者高水平的蛋白 A 是否与无疾病样本相关。所以我想知道预测因子是与疾病负相关还是与疾病直接相关。