我正在尝试使用逻辑回归来使用 Scikit-learn 工具做一些预测任务。
她是我的任务的两个示例功能:
特征1(男人,女人,不知道) ---分类变量
特征2(点击次数) ---连续变量
当我将数据输入逻辑回归时,我不确定如何对特征进行编码。
我应该使用1, 2 和 3来表示分类变量man, woman 和 unknow,还是在使用 Scikit 时使用(1, 0, 0), (0, 1, 0), (0, 0, 1)来表示它们-learn的逻辑回归?那么连续变量呢?
我正在尝试使用逻辑回归来使用 Scikit-learn 工具做一些预测任务。
她是我的任务的两个示例功能:
特征1(男人,女人,不知道) ---分类变量
特征2(点击次数) ---连续变量
当我将数据输入逻辑回归时,我不确定如何对特征进行编码。
我应该使用1, 2 和 3来表示分类变量man, woman 和 unknow,还是在使用 Scikit 时使用(1, 0, 0), (0, 1, 0), (0, 0, 1)来表示它们-learn的逻辑回归?那么连续变量呢?
功能 2 你应该保持原样。
功能 1 有点棘手。处理缺失数据时,您可以删除整行或尝试将值归入特征。我建议您在从 Scikit-Learn 文档构建估算器之前阅读 Imputing missing values 。这将向您展示一个估算数据和测试您的预测正在改进的示例。如果您估算数据,请尝试为已估算数据的行添加一个虚拟变量,我过去已成功应用此规范。