r - R中的模型分析（逻辑回归）

Question

我有一个数据文件（100 万行），其中有一个结果变量作为状态（是/否），具有三个连续变量和 5 个名义变量（每个变量中有 5 个类别）我想预测结果，即状态。我想知道哪种类型的分析有利于建立模型。我见过logit，probit，逻辑回归。我对从什么开始和分析更有可能对分析有用的变量感到困惑。

数据文件：性别、地区、年龄、公司、专业、工作、诊断、实验室、订单、状态

M,west,41,PA,FPC, Assistant,code18,27,3,yes

M,Southwest,65,CV,FPC,Worker,code18,69,11,no

M,South,27,DV,IMC,Assistant,无效,62,13,no

M,Southwest,18,CV,IMC,Worker,code8,6,1,yes

PS：使用R语言。任何帮助将不胜感激谢谢！

score 2 · Accepted Answer

鉴于这三个，大多数人通常从逻辑回归开始他们的分析。

请注意，Logistic 和 Logit 是一回事。

在选择 Logistic 和 Probit 时，选择 Logistic。

Probit 通常会更快地返回结果，而 Logistic 在解释结果方面具有更好的优势。

现在，确定变量 - 您可以改变要在模型中使用的变量数量。

model1 <- glm(status ~., data = df, family = binomial(link = 'logit'))

现在，检查模型摘要并检查预测变量的重要性。

model2 <- glm(status ~ gender + region + age + company + speciality + jobrole + diag + labs, data = df, family = binomial(link = 'logit'))

通过减少变量的数量，您将能够更好地识别哪些变量是重要的。

此外，请确保您在此之前已执行数据清理。

避免包含高度相关的变量，您可以使用cor()

1 回答 1