问题标签 [one-hot-encoding]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1094 问题

0 投票

2 回答

3115 浏览

apache-spark - 如何使 Spark 中的 onehotencoder 像 Pandas 中的 onehotencoder 一样工作？

当我在 Spark 中使用 onehotencoder 时，我会得到第四列的结果，这是一个稀疏向量。

但是，我想要的是为类别生成 3 列，就像它在熊猫中的工作方式一样。

apache-spark pyspark one-hot-encoding

2017-03-18T15:22:24.100

0 投票

1 回答

14106 浏览

scikit-learn - ValueError：无法处理多标签指示符和二进制的混合

我正在使用带有 scikit-learn 包装器的 Keras。特别是，我想使用 GridSearchCV 进行超参数优化。

这是一个多类问题，即目标变量只能在一组 n 个类中选择一个标签。例如，目标变量可以是“Class1”、“Class2”...“Classn”。

问题是，在交叉验证期间计算分数时，验证样本的真实标签是一次性编码的，而由于某种原因，预测会崩溃为二进制标签（当目标变量只有两个类时）。例如，这是堆栈跟踪的最后一部分：

如何指示 Keras/sklearn 以 one-hot 编码返回预测？

scikit-learn keras grid-search one-hot-encoding multiclass-classification

2017-03-22T11:44:59.513

0 投票

1 回答

511 浏览

matlab - MATLAB：一键矩阵到直方图

我有一个单热编码矩阵（大小1E6 x 10），其中每一行代表一个观察值，每一列代表一个类别。如何创建直方图来可视化每个类别的计数并在 x 轴上标记类别名称（我猜是垂直放置以防止重叠），而不仅仅是使用列号？

matlab histogram one-hot-encoding

2017-03-23T00:49:25.903

0 投票

1 回答

2037 浏览

pandas - 如何在 Python 中的序数列上创建虚拟变量

我是 Python 新手。我使用 pandas get_dummies 在分类列上创建了虚拟列。如何在序数列上创建虚拟列（例如列 Rating 的值为 1、2、3 ...、10）

pandas python-3.6 one-hot-encoding

2017-03-24T19:31:33.387

0 投票

1 回答

297 浏览

python - Python Numpy One 热门地区

制作这个 One Hot 编码矩阵的最佳方法是什么

作为

换句话说，如何解码 One Hot 数组？

python python-2.7 python-3.x numpy one-hot-encoding

2017-03-25T14:48:25.983

0 投票

0 回答

249 浏览

python - 使用一个热编码器对离散和分类数据进行编码

我有一个涉及离散和连续数据变量的数据集。例如：性别、职业、薪水。薪水是一个包含大量信息来预测我的班级的字段。现在我有一个由 One Hot Encoder 映射的 Gender 和 Occupation 列。如何将工资值映射到编码后得到的输出数组。

在这个问题中，我尝试使用决策树对数据进行分类，因此我希望薪水保留它的值，以便决策树能够使用普通数字运算符预测最终类别。

python scikit-learn decision-tree one-hot-encoding

2017-03-27T02:08:45.607

0 投票

1 回答

889 浏览

sequences - 如何创建序列序列的一个热编码

我想对看起来像 [[5,7,11,9,13,1,...],[3,7,5,9,16,...] 的数据集进行一次热编码， ..]; 其中每个序列的长度为 24，每个序列中的最大可能整数为 33，序列总数为 200。每个序列是一个句子的整数表示。我如何才能对此进行有效的热编码？我试过了

sequences one-hot-encoding

2017-03-28T08:40:07.667

0 投票

2 回答

9104 浏览

pandas - 一种热编码分类特征 - 仅稀疏形式

我有一个具有 int 和分类特征的数据框。分类特征有两种类型：数字和字符串。

我能够对整数列和分类列进行热编码。当我尝试对作为字符串的分类列进行一个热编码时出现错误。

ValueError：无法将字符串转换为浮点数：'13367cc6'

由于数据框很大且基数很高，所以我只想将其转换为稀疏形式。我更喜欢使用的解决方案，from sklearn.preprocessing import OneHotEncoder因为我熟悉它。

我也检查了其他问题，但没有一个能解决我的问题。

上面的数据框包含 4 行 3 列

列名 -['animal_id', 'animal_name', 'number']

假设 animal_id和animal_name作为类别存储在熊猫中，数字作为 int64 dtype 存储。

pandas scikit-learn categorical-data one-hot-encoding

2017-03-28T16:13:52.460

0 投票

1 回答

1112 浏览

pandas - OneHotEncoding 训练数据和测试数据之间的映射问题

我已经通过 sklearn OneHotEncoding 方法转换了训练和测试数据集。但是，转换后的结果具有不同的类型形状。所以不可能应用于逻辑回归等其他算法。

如何根据训练数据集的形状重塑测试数据？

最好的关于，克里斯

pandas numpy scikit-learn one-hot-encoding

2017-04-03T03:32:15.160

0 投票

1 回答

615 浏览

scikit-learn - Scikit-learn中Logistic回归的编码方法

我正在尝试使用逻辑回归来使用 Scikit-learn 工具做一些预测任务。

她是我的任务的两个示例功能：

特征1（男人，女人，不知道） ---分类变量

特征2（点击次数） ---连续变量

当我将数据输入逻辑回归时，我不确定如何对特征进行编码。

我应该使用1, 2 和 3来表示分类变量man, woman 和 unknow，还是在使用 Scikit 时使用(1, 0, 0), (0, 1, 0), (0, 0, 1)来表示它们-learn的逻辑回归？那么连续变量呢？

scikit-learn logistic-regression one-hot-encoding

2017-04-05T07:47:17.347

1 2 3 4 5 6 7 8 9 10