0

我有一个数据文件(100 万行),其中有一个结果变量作为状态(是/否),具有三个连续变量和 5 个名义变量(每个变量中有 5 个类别)我想预测结果,即状态。我想知道哪种类型的分析有利于建立模型。我见过logit,probit,逻辑回归。我对从什么开始和分析更有可能对分析有用的变量感到困惑。

数据文件:性别、地区、年龄、公司、专业、工作、诊断、实验室、订单、状态

M,west,41,PA,FPC, Assistant,code18,27,3,yes

M,Southwest,65,CV,FPC,Worker,code18,69,11,no

M,South,27,DV,IMC,Assistant,无效,62,13,no

M,Southwest,18,CV,IMC,Worker,code8,6,1,yes

PS:使用R语言。任何帮助将不胜感激谢谢!

4

1 回答 1

2

鉴于这三个,大多数人通常从逻辑回归开始他们的分析。

请注意,Logistic 和 Logit 是一回事。

在选择 Logistic 和 Probit 时,选择 Logistic。

Probit 通常会更快地返回结果,而 Logistic 在解释结果方面具有更好的优势。

现在,确定变量 - 您可以改变要在模型中使用的变量数量。

model1 <- glm(status ~., data = df, family = binomial(link = 'logit'))

现在,检查模型摘要并检查预测变量的重要性。

model2 <- glm(status ~ gender + region + age + company + speciality + jobrole + diag + labs, data = df, family = binomial(link = 'logit'))

通过减少变量的数量,您将能够更好地识别哪些变量是重要的。

此外,请确保您在此之前已执行数据清理。

避免包含高度相关的变量,您可以使用cor()

于 2016-08-05T04:57:08.100 回答