0

我正在为线性回归准备定价数据。我的特征只包含一周中的几天。我的目标是价格。我已经为我的数据制作了一个字典列表,就像sklearn 4.2.1 Loading features from dicts 中的示例一样。所以数据结构是[{'day': 'friday', 'price': 59}, {'day': 'saturday', 'price': 65}这样的。

我根据上面的链接使用 sklearn 的 DictVectorizer 对一周中的几天进行虚拟代码,并将数据结构转换为列表列表(适用于 sklearn LinearRegression)。

vec = DictVectorizer()
vec_fit = vec.fit_transform(my_data).toarray()

当我打印 vec_fit 以查看数据时,我得到下面的输出。

[[   0.    0.    0. ...,    0.    1.   59.]
 [   0.    0.    0. ...,    0.    0.   92.]
 [   1.    0.    0. ...,    0.    0.   92.]
 ...,
 [   0.    0.    1. ...,    0.    0.  181.]
 [   0.    0.    0. ...,    0.    0.  181.]
 [   0.    1.    0. ...,    0.    0.  181.]]

有人可以解释(a)...,和(b)为什么一周中的几天没有7个虚拟变量?在我的示例中,...,似乎涵盖了周日和周四。

为了检查我的功能(每个 sklearn 4.2.1),我使用了该get_feature_names功能。

vec.get_feature_names()

[u'day=Friday', u'day=Monday', u'day=Saturday', u'day=Sunday', 
 u'day=Thursday', u'day=Tuesday', u'day=Wednesday', 'price']

从输出中可以看出,所有的日子似乎都被恰当地表示了。我仍然对上面的(a)和(b)感到困惑。仅供参考,当我这样做时,LinearRegression我只得到 6 个系数(我期待 7 个;一周中的每一天一个)谢谢。

4

1 回答 1

3

它们在那里,只是在您打印vec_fit. 打印大型数组时,它是 numpy 的默认行为。只有前 3 列和后 3 列数据与前 3 行和后 3 行一起显示。

[[   0.    0.    0. ...,    0.    1.   59.]
 [   0.    0.    0. ...,    0.    0.   92.]
 [   1.    0.    0. ...,    0.    0.   92.]
 ..., <=== This is for all intermediate data values present. Just not printed
 [   0.    0.    1. ...,    0.    0.  181.]
 [   0.    0.    0. ...,    0.    0.  181.]
 [   0.    1.    0. ...,    0.    0.  181.]]

您可以通过检查数组的形状来确认所有数据都存在。

print(vec_fit.shape)

应该是(n_rows, 8)。第一个值 ( n_rows) 涵盖所有样本。第二个值 ( 8) 涵盖了 7 个虚拟变量和 1 个目标变量。

如果要打印完整的数组,请查看以下问题:

于 2017-12-12T05:34:46.160 回答