我有一个像这样的数据集:
e = pd.DataFrame({
'col1': ['A', 'A', 'B', 'W', 'F', 'C'],
'col2': [2, 1, 9, 8, 7, 4],
'col3': [0, 1, 9, 4, 2, 3],
'col4': ['a', 'B', 'c', 'D', 'e', 'F']
})
在这里,我使用sklearn.preprocessing.LabelEncoder
. 通过以下代码行:
x = list(e.columns)
# Import label encoder
from sklearn import preprocessing
# label_encoder object knows how to understand word labels.
label_encoder = preprocessing.LabelEncoder()
for i in x:
# Encode labels in column 'species'.
e[i] = label_encoder.fit_transform(e[i])
print(e)
但这甚至是对int
类型的数字数据点进行编码,这不是必需的。
编码数据集:
col1 col2 col3 col4
0 0 1 0 3
1 0 0 1 0
2 1 5 5 4
3 4 4 4 1
4 3 3 2 5
5 2 2 3 2
我该如何纠正这个问题?