-1

我正在尝试使用逻辑回归来使用 Scikit-learn 工具做一些预测任务。

她是我的任务的两个示例功能:

特征1(男人,女人,不知道) ---分类变量

特征2(点击次数) ---连续变量

当我将数据输入逻辑回归时,我不确定如何对特征进行编码。

我应该使用1, 2 和 3来表示分类变量man, woman 和 unknow,还是在使用 Scikit 时使用(1, 0, 0), (0, 1, 0), (0, 0, 1)来表示它们-learn的逻辑回归?那么连续变量呢?

4

1 回答 1

1

功能 2 你应该保持原样。

功能 1 有点棘手。处理缺失数据时,您可以删除整行或尝试将值归入特征。我建议您在从 Scikit-Learn 文档构建估算器之前阅读 Imputing missing values 。这将向您展示一个估算数据和测试您的预测正在改进的示例。如果您估算数据,请尝试为已估算数据的行添加一个虚拟变量,我过去已成功应用此规范。

于 2017-04-05T14:14:01.157 回答