“one-hot-encoding”的相关标签问题

0 投票

3 回答

3859 浏览

python - 如何在sklearn中编码分类特征？

我有一个包含 41 个特征的数据集 [从 0 到 40 列]，其中 7 个是分类的。该分类集分为两个子集：

字符串类型的子集（列特征 1、2、3）
int 类型的子集，二进制形式 0 或 1（列特征 6、11、20、21）

此外，列特征 1、2 和 3（字符串类型）分别具有基数 3、66 和 11。在这种情况下，我必须对它们进行编码以使用支持向量机算法。这是我拥有的代码：

我不知道是否更好地使用DictVectorizer()或OneHotEncoder()[出于我上面公开的原因]，并且主要以哪种方式将它们[在代码方面]与X我拥有的矩阵一起使用。或者我应该简单地为字符串类型子集中的每个基数分配一个数字（因为它们具有高基数，因此我的特征空间将呈指数增长）？

编辑关于 int 类型的子集，我想最好的选择是保持列特征不变（不要将它们传递给任何编码器）对于具有高基数的字符串类型的子集，问题仍然存在。

2016-11-15T19:11:04.510

0 投票

2 回答

5580 浏览

python - 指定 one_hot=True 后如何从 MNIST 示例中获取整数标签？

我一直在 Youtube 上尝试这个教程（解释 .cls 和 .labels 在1m31s），这只是一个简单的 MNIST 分类器模型。但由于 Tensorflow 中明显缺少功能，我无法完成它。

在 Google 上搜索 TF 中的“.cls”参考后，我找不到任何相关信息。

一个让事情顺利进行的肮脏例子：

我在 Linux 上使用 Tensorflow 0.10.0 并且想知道 .cls 选项是否已被删除？

如果是这样，是否有另一种方法可以从 one_hot 向量数组中编码分类器名称数组？

谢谢

python tensorflow mnist one-hot-encoding

2016-11-27T03:12:22.687

0 投票

0 回答

104 浏览

python - 将数值数组转换为稀疏数组时出错

我正在处理一个庞大的数据集，并且在将数值数组转换为稀疏数组时遇到问题。

TypeError Traceback (most recent call last) in () 1 from scipy import sparse # 需要这个来创建稀疏数组 ----> 2 scalingDF_sparse = sparse.csr_matrix(scalingDF)

/Users/nikhil_maladkar/anaconda/lib/python2.7/site-packages/scipy/sparse/compressed.pyc in init (self, arg1, shape, dtype, copy) 67 self.format) 68 from .coo import coo_matrix -- -> 69 self._set_self( self.class ( coo_matrix (arg1, dtype=dtype))) 70 71 # 读取给定的矩阵维度，如果有的话

/Users/nikhil_maladkar/anaconda/lib/python2.7/site-packages/scipy/sparse/compressed.pyc in init (self, arg1, shape, dtype, copy) 29 arg1 = arg1.copy() 30 else: -- -> 31 arg1 = arg1.asformat(self.format) 32 self._set_self(arg1) 33

/Users/nikhil_maladkar/anaconda/lib/python2.7/site-packages/scipy/sparse/base.pyc in asformat(self, format) 218 return self 219 else: --> 220 return getattr(self,'to' +格式)() 221 222 ########################################### #######################

/Users/nikhil_maladkar/anaconda/lib/python2.7/site-packages/scipy/sparse/coo.pyc in tocsr(self) 328 indptr = np.empty(M + 1, dtype=idx_dtype) 329 indices = np.empty (self.nnz, dtype=idx_dtype) --> 330 data = np.empty(self.nnz, dtype=upcast(self.dtype)) 331 332 coo_tocsr(M, N, self.nnz,

/Users/nikhil_maladkar/anaconda/lib/python2.7/site-packages/scipy/sparse/sputils.pyc in upcast(*args) 55 return t 56 ---> 57 raise TypeError('不支持类型转换：% r' % (args,)) 58 59

TypeError：不支持类型转换：（dtype（'O'），）