1

一些特征是数字的,例如“毕业率”,而其他特征是分类的,例如学校的名称。我在分类特征上使用标签编码器将它们转换为整数。

我现在有一个带有浮点数和整数的数据框,分别表示数字特征和分类特征(用标签编码器转换)。

我不确定如何继续学习,我需要使用一种热编码吗?如果是这样,我该怎么做?根据我目前的理解,我不能简单地将数据帧传递给 sklearn OneHotEncoder,因为有浮点数。我是否只是将标签编码器应用于所有功能来解决问题?

我的数据框中的示例数据。OPEID 和 opeid6 使用标签编码器进行转换

非常感谢!

4

1 回答 1

0

只需使用参数进行选择,特征是分类的:OneHotEncoder categorical_features

categorical_features:“全部”或索引数组或掩码:

指定哪些特征被视为分类特征。

  • 'all'(默认):所有特征都被视为分类。
  • 索引数组:分类特征索引数组。
  • 掩码:长度为 n_features 且 dtype=bool 的数组。

    非分类特征总是堆叠在矩阵的右侧。

于 2016-09-03T06:39:56.800 回答