4

我正在使用随机森林解决分类问题。为此,我决定使用 Python 库 scikit-learn。但我对随机森林算法和这个工具都是新手。我的数据包含许多因素变量。我搜索了一下,发现像我们在线性回归中那样为因子变量赋予数值是不正确的,因为它会将其视为连续变量并给出错误的结果。但是我找不到任何关于如何在 scikit-learn 中处理因子变量的信息。请告诉我使用的选项或指向我可以获得的一些文件。

4

2 回答 2

11

如果您使用的是 pandas 数据框,则可以轻松使用 get_dummies 函数来完成此操作。这是一个例子:

import pandas as pd

my_data = [['a','b'],['b','a'],['c','b'],['d','a'],['a','c']]
df = pd.DataFrame(my_data, columns = ['var1','var2'])
dummy_ranks = pd.get_dummies(df['var1'], prefix = 'var1_')
print dummy_ranks

   var1__a  var1__b  var1__c  var1__d
0        1        0        0        0
1        0        1        0        0
2        0        0        1        0
3        0        0        0        1
4        1        0        0        0

[5 rows x 4 columns]
于 2014-08-15T21:16:14.103 回答
2

您应该使用 sklearn 的OneHotEncoder。它的作用是为分类整数特征中的每个不同值创建一个新变量。

因此,例如,如果您有var带值的变量[10, 25, 30],它将创建三个新变量(即具有 3 列的矩阵),本质上分别是带变量、var_10带值var_25和和。var_30[1, 0, 0][0, 1, 0][0, 0, 1]

于 2013-05-10T12:42:21.700 回答