scikit-learn - Scikit-learn中Logistic回归的编码方法

Question

我正在尝试使用逻辑回归来使用 Scikit-learn 工具做一些预测任务。

她是我的任务的两个示例功能：

特征1（男人，女人，不知道） ---分类变量

特征2（点击次数） ---连续变量

当我将数据输入逻辑回归时，我不确定如何对特征进行编码。

我应该使用1, 2 和 3来表示分类变量man, woman 和 unknow，还是在使用 Scikit 时使用(1, 0, 0), (0, 1, 0), (0, 0, 1)来表示它们-learn的逻辑回归？那么连续变量呢？

score 1 · Accepted Answer

功能 2 你应该保持原样。

功能 1 有点棘手。处理缺失数据时，您可以删除整行或尝试将值归入特征。我建议您在从 Scikit-Learn 文档构建估算器之前阅读 Imputing missing values 。这将向您展示一个估算数据和测试您的预测正在改进的示例。如果您估算数据，请尝试为已估算数据的行添加一个虚拟变量，我过去已成功应用此规范。

scikit-learn - Scikit-learn中Logistic回归的编码方法

1 回答 1

Related

Reference