python - scikit learn 中的 OneHotEncoder 混淆

Question

在 Python 2.7（miniconda 解释器）中使用。对下面的例子感到困惑OneHotEncoder，困惑为什么enc.n_values_输出是[2, 3, 4]？如果有人可以帮助澄清，那就太好了。

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  
OneHotEncoder(categorical_features='all', dtype=<... 'float'>,
       handle_unknown='error', n_values='auto', sparse=True)
>>> enc.n_values_
array([2, 3, 4])
>>> enc.feature_indices_
array([0, 2, 5, 9])
>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

问候，林

score 2 · Accepted Answer

n_values是每个特征的值的数量。

在这个例子中，

（X 的形状是 [n_samples, n_feature]）

对于第一个特征，有 2 个值：0、1；

对于第二个特征，有 3 个值：0、1、2。

对于第三个特征，有 4 个值：0、1、2、3。

因此，enc.n_values_是[2, 3, 4]。

score 0 · Accepted Answer

我认为上述关于 n_values_ 的解释并不完整和清晰。我的解释：-
用这个：“n_values[i] 是 X[:, i] 中的分类值的数量。每个特征值应该在范围内（n_values[ i]) "这意味着 n_values_ 在列中给出范围（n_values[i]) = [0,n_values)。

这里：

from sklearn.preprocessing import OneHotEncoder
o = OneHotEncoder()
o.fit([[1,2,3], [1,2,3], [1,2,11] , [2,3,1]])
o.n_values_
array([3,4,12])

这里的结果是 3,4,12，因此您可以通过列更清楚地看到它，数组中的每个值都给出了范围。

所以按列的值是范围（3），范围（4），范围（12）。为了更清楚地理解，让我们再举一个例子：-

from sklearn.preprocessing import OneHotEncoder
o = OneHotEncoder()
o.fit([[1,2,3,100], [1,2,3,200], [1,2,11,300] , [2,3,1,400]])
o.n_values_
array([ 3, 4, 12, 401])

这证明它对于分类数据看起来是按列排列的，并且每个特征值都在范围内（n_values_）

python - scikit learn 中的 OneHotEncoder 混淆

2 回答 2

Related

Reference