问题标签 [one-hot-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3115 浏览

apache-spark - 如何使 Spark 中的 onehotencoder 像 Pandas 中的 onehotencoder 一样工作?

当我在 Spark 中使用 onehotencoder 时,我会得到第四列的结果,这是一个稀疏向量。

但是,我想要的是为类别生成 3 列,就像它在熊猫中的工作方式一样。

0 投票
1 回答
14106 浏览

scikit-learn - ValueError:无法处理多标签指示符和二进制的混合

我正在使用带有 scikit-learn 包装器的 Keras。特别是,我想使用 GridSearchCV 进行超参数优化。

这是一个多类问题,即目标变量只能在一组 n 个类中选择一个标签。例如,目标变量可以是“Class1”、“Class2”...“Classn”。

问题是,在交叉验证期间计算分数时,验证样本的真实标签是一次性编码的,而由于某种原因,预测会崩溃为二进制标签(当目标变量只有两个类时)。例如,这是堆栈跟踪的最后一部分:

如何指示 Keras/sklearn 以 one-hot 编码返回预测?

0 投票
1 回答
511 浏览

matlab - MATLAB:一键矩阵到直方图

我有一个单热编码矩阵(大小1E6 x 10),其中每一行代表一个观察值,每一列代表一个类别。如何创建直方图来可视化每个类别的计数并在 x 轴上标记类别名称(我猜是垂直放置以防止重叠),而不仅仅是使用列号?

0 投票
1 回答
2037 浏览

pandas - 如何在 Python 中的序数列上创建虚拟变量

我是 Python 新手。我使用 pandas get_dummies 在分类列上创建了虚拟列。如何在序数列上创建虚拟列(例如列 Rating 的值为 1、2、3 ...、10)

0 投票
1 回答
297 浏览

python - Python Numpy One 热门地区

制作这个 One Hot 编码矩阵的最佳方法是什么

作为

换句话说,如何解码 One Hot 数组?

0 投票
0 回答
249 浏览

python - 使用一个热编码器对离散和分类数据进行编码

我有一个涉及离散和连续数据变量的数据集。例如:性别、职业、薪水。薪水是一个包含大量信息来预测我的班级的字段。现在我有一个由 One Hot Encoder 映射的 Gender 和 Occupation 列。如何将工资值映射到编码后得到的输出数组。

在这个问题中,我尝试使用决策树对数据进行分类,因此我希望薪水保留它的值,以便决策树能够使用普通数字运算符预测最终类别。

0 投票
1 回答
889 浏览

sequences - 如何创建序列序列的一个热编码

我想对看起来像 [[5,7,11,9,13,1,...],[3,7,5,9,16,...] 的数据集进行一次热编码, ..]; 其中每个序列的长度为 24,每个序列中的最大可能整数为 33,序列总数为 200。每个序列是一个句子的整数表示。我如何才能对此进行有效的热编码?我试过了

0 投票
2 回答
9104 浏览

pandas - 一种热编码分类特征 - 仅稀疏形式

我有一个具有 int 和分类特征的数据框。分类特征有两种类型:数字和字符串。

我能够对整数列和分类列进行热编码。当我尝试对作为字符串的分类列进行一个热编码时出现错误。

ValueError:无法将字符串转换为浮点数:'13367cc6'

由于数据框很大且基数很高,所以我只想将其转换为稀疏形式。我更喜欢使用的解决方案,from sklearn.preprocessing import OneHotEncoder因为我熟悉它。

我也检查了其他问题,但没有一个能解决我的问题。

上面的数据框包含 4 行 3 列

列名 -['animal_id', 'animal_name', 'number']

假设 animal_idanimal_name作为类别存储在熊猫中,数字作为 int64 dtype 存储。

0 投票
1 回答
1112 浏览

pandas - OneHotEncoding 训练数据和测试数据之间的映射问题

我已经通过 sklearn OneHotEncoding 方法转换了训练和测试数据集。但是,转换后的结果具有不同的类型形状。所以不可能应用于逻辑回归等其他算法。

如何根据训练数据集的形状重塑测试数据?

最好的关于,克里斯

0 投票
1 回答
615 浏览

scikit-learn - Scikit-learn中Logistic回归的编码方法

我正在尝试使用逻辑回归来使用 Scikit-learn 工具做一些预测任务。

她是我的任务的两个示例功能:

特征1(男人,女人,不知道) ---分类变量

特征2(点击次数) ---连续变量

当我将数据输入逻辑回归时,我不确定如何对特征进行编码。

我应该使用1, 2 和 3来表示分类变量man, woman 和 unknow,还是在使用 Scikit 时使用(1, 0, 0), (0, 1, 0), (0, 0, 1)来表示它们-learn的逻辑回归?那么连续变量呢?