python - 字符串分类特征的一种热编码

Question

我正在尝试对一个简单的数据集执行一次热编码。

data = [['a', 'dog', 'red']
        ['b', 'cat', 'green']]

使用 Scikit-Learn 预处理这些数据的最佳方法是什么？

乍一看，你会看 Scikit-Learn 的OneHotEncoder。但是一个热门的编码器不支持字符串作为特征；它只离散整数。

因此，您将使用LabelEncoder，它将字符串编码为整数。但是随后您必须将标签编码器应用到每一列并存储这些标签编码器中的每一个（以及应用它们的列）。这感觉非常笨拙。

那么，在 Scikit-Learn 中最好的方法是什么？

请不要建议pandas.get_dummies。这就是我现在通常使用的一种热编码。但是，它的局限性在于您无法单独编码您的训练/测试集。

score 9 · Accepted Answer

如果你在 sklearn>0.20.dev0

In [11]: from sklearn.preprocessing import OneHotEncoder
    ...: cat = OneHotEncoder()
    ...: X = np.array([['a', 'b', 'a', 'c'], [0, 1, 0, 1]], dtype=object).T
    ...: cat.fit_transform(X).toarray()
    ...: 
Out[11]: array([[1., 0., 0., 1., 0.],
           [0., 1., 0., 0., 1.],
           [1., 0., 0., 1., 0.],
           [0., 0., 1., 0., 1.]])

如果你在 sklearn==0.20.dev0

In [30]: cat = CategoricalEncoder()

In [31]: X = np.array([['a', 'b', 'a', 'c'], [0, 1, 0, 1]], dtype=object).T

In [32]: cat.fit_transform(X).toarray()
Out[32]:
array([[ 1.,  0., 0.,  1.,  0.],
       [ 0.,  1.,  0.,  0.,  1.],
       [ 1.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  1.,  0.,  1.]])

另一种方法是使用 category_encoders。

这是一个例子：

% pip install category_encoders
import category_encoders as ce
le =  ce.OneHotEncoder(return_df=False, impute_missing=False, handle_unknown="ignore")
X = np.array([['a', 'dog', 'red'], ['b', 'cat', 'green']])
le.fit_transform(X)
array([[1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1]])

score 5 · Accepted Answer

非常好的问题。

然而，在某种意义上，这是一个经常出现的事情（至少对我而言）的私人案例——给定sklearn适用于X矩阵子集的阶段，我想在给定整个矩阵的情况下应用（可能是几个）。例如，在这里，您有一个知道在单个列上运行的阶段，并且您想应用它三次 - 每列一次。

这是使用复合设计模式的经典案例。

这是一个（草图）可重用阶段，它接受将列索引映射到转换以应用于它的字典：

class ColumnApplier(object):
    def __init__(self, column_stages):
        self._column_stages = column_stages

    def fit(self, X, y):
        for i, k in self._column_stages.items():
            k.fit(X[:, i])

        return self

    def transform(self, X):
        X = X.copy()
        for i, k in self._column_stages.items():
            X[:, i] = k.transform(X[:, i])

        return X

现在，要在这种情况下使用它，从

X = np.array([['a', 'dog', 'red'], ['b', 'cat', 'green']])
y = np.array([1, 2])
X

您只需使用它将每个列索引映射到您想要的转换：

multi_encoder = \
    ColumnApplier(dict([(i, preprocessing.LabelEncoder()) for i in range(3)]))
multi_encoder.fit(X, None).transform(X)

一旦你开发了这样一个阶段（我不能发布我使用的那个），你可以一遍又一遍地使用它来进行各种设置。

score 3 · Accepted Answer

我多次遇到这个问题，我在本书的第 100 页找到了解决方案：

我们可以使用 LabelBinarizer 类一次性应用两种转换（从文本类别到整数类别，然后从整数类别到 one-hot 向量）：

示例代码在这里：

from sklearn.preprocessing import LabelBinarizer
encoder = LabelBinarizer()
housing_cat_1hot = encoder.fit_transform(data)
housing_cat_1hot

结果：请注意，默认情况下这会返回一个密集的 NumPy 数组。您可以通过将 sparse_output=True 传递给 LabelBinarizer 构造函数来获取稀疏矩阵。

您可以在 sklearn 官方文档中找到有关 LabelBinarizer的更多信息

python - 字符串分类特征的一种热编码

3 回答 3

Related

Reference