我知道作为特征,序数数据可以分配任意数字,OneHotEncoding 可以用于分类数据。但是当这两种类型的数据是要预测的特征时,应该如何处理它们,我有点困惑。例如在 scikitlearn 的 iris 数据集中:
iris = datasets.load_iris()
X = iris.data
y = iris.target
虽然 y 代表三种类型的花,这是一个分类数据(如果我没有错?!),它被编码为 0,1,2 的序数值(type=int32)。我的数据集还包括 3 个独立的类别('sick'、'carrier'、'healthy'),scikitlearn 将它们作为字符串接受,没有任何类型的编码。
我想知道保留它们是否正确,因为它们将由 scikitlearn 使用,或者需要像对 iris 数据集所做的类似编码?