问题标签 [one-hot-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
5074 浏览

c++ - 将 one-hot 编码转换为纯二进制

这不是一个常规的“二进制到 bcd”问题,事实上,我不太确定如何称呼我正在尝试做的事情!

嵌入式设备中有一个字节以下列格式存储数字 1 到 7(一周中的几天):

我想读取这个字节,并将其内容(1 到 7)转换为 BCD,但我不确定如何执行此操作。

我知道我可以用一系列 if 语句来暴力破解它:

等等,但我认为可能有更好的方法。该数据存储在实时时钟上的单个寄存器中。我通过执行 I2C 读取来获取此字节,并将其读入程序中的一个字节。此实时时钟的数据表指定此特定寄存器的格式如我上面所述。

0 投票
1 回答
42163 浏览

python - 将虚拟列添加到原始数据框

我有一个数据框,如下所示:

对于 YEAR 值,我喜欢将年份列 (1993,1994...,2009) 添加到原始数据框中,如果 YEAR 中的值为 1992,则 1992 列中的值应为 1,否则为 0。

我使用了一个非常愚蠢的 for 循环,但它似乎永远运行,因为我有一个大数据集。谁能帮帮我,非常感谢!

0 投票
5 回答
98479 浏览

python - 在几个 DataFrame 列上运行 get_dummies?

一个人如何习惯性地get_dummies在多个 DataFrame 列上运行一个函数,它需要一个列并返回多个?

0 投票
5 回答
66862 浏览

python - sklearn 随机森林可以直接处理分类特征吗?

假设我有一个分类特征颜色,它采用值

['红色','蓝色','绿色','橙色'],

我想用它来预测随机森林中的某些东西。如果我对其进行一次热编码(即我将其更改为四个虚拟变量),我如何告诉 sklearn 这四个虚拟变量实际上是一个变量?具体来说,当 sklearn 随机选择要在不同节点上使用的特征时,它应该包括红色、蓝色、绿色和橙色的假人,或者不应该包括任何一个。

我听说没有办法做到这一点,但我想必须有一种方法来处理分类变量,而不是将它们任意编码为数字或类似的东西。

0 投票
1 回答
449 浏览

python - 在 sklearn 中使用 OneHotEncoding 编码 32 位十六进制数

我有一些分类特征散列成 32 位十六进制数字,例如,在一个类别中,三个不同的类被散列成:

一个 Hot Encoding将这些映射到一个二进制数组中,只有一位是 1,另一个是 0。所以如果我想对上述特征进行编码。只需要三个位。

001 correspond to 05db9164, 010 correspond to 68fd1e64, 100 correspond to 8cf07265

但是当我在 sklearn 中使用 OneHotEncoder 时,它告诉我这个数字太大了。这让我很困惑。因为我们不关心数字的数值属性。我们只关心它们是否相同。

另一方面,如果我编码 0,1,2:

我得到了预期的答案。而且我认为这些 32 位十六进制数是用来表示类别中的类的。所以它与 0 , 1 ,2 相同。并且 [0,0,1], [0,1,0],[1,0,0] 足以对其进行编码。你能帮我吗。非常感谢。

0 投票
1 回答
4986 浏览

hash - 在预处理具有高基数的数据时,您是先哈希还是先热编码?

散列降低了维度,而单热编码通过将多类别变量转换为许多二进制变量,本质上炸毁了特征空间。因此,它们似乎具有相反的效果。我的问题是:

在同一个数据集上做这两个有什么好处?我读过一些关于捕捉交互的东西,但没有详细说明——有人可以详细说明一下吗?

哪个先出现,为什么?

0 投票
22 回答
260459 浏览

python - 将索引数组转换为 1-hot 编码的 numpy 数组

假设我有一个 1d numpy 数组

我想将其编码为 2D one-hot 数组

有没有快速的方法来做到这一点?比循环a设置 的元素更快b,也就是说。

0 投票
1 回答
9549 浏览

python - 一种在python中表示语料库句子的热编码

我是 Python 和 Scikit-learn 库的初学者。我目前需要从事一个 NLP 项目,该项目首先需要通过 One-Hot Encoding 表示一个大型语料库。我已经阅读了 Scikit-learn 关于 preprocessing.OneHotEncoder 的文档,但是,这似乎不是我对术语的理解。

基本上,这个想法类似于以下:

  • 1000000 星期日;0100000 星期一;0010000 星期二;... 0000001 星期六;

如果语料库只有 7 个不同的单词,那么我只需要一个 7 位向量来表示每个单词。然后,一个完整的句子可以用所有向量的合取来表示,它是一个句子矩阵。但是,我在Python中尝试过,它似乎不起作用......

我怎样才能解决这个问题?我的语料库中有大量不同的单词。

顺便说一句,如果向量大部分都用零填充,我们可以使用 Scipy.Sparse 来缩小存储空间,例如 CSR。

因此,我的整个问题将是:

语料库中的句子如何用 OneHotEncoder 表示,并存储在 SparseMatrix 中?

感谢你们。

0 投票
2 回答
7184 浏览

indexing - 在 Torch 中,如何从整数标签列表中创建 1-hot 张量?

我有一个整数类标签的字节张量,例如来自 MNIST 数据集。

如何使用它来创建 1-hot 向量的张量?

我知道我可以用一个循环来做到这一点,但我想知道是否有任何聪明的 Torch 索引可以在一行中为我提供它。

0 投票
3 回答
1130 浏览

python - 从 scikit-learn 中的 one-hot-encoding 回溯分类特征?

我正在尝试构建一个套索回归预测模型。我在 scikit-learn 中使用 OneHotEncoder 使用 one-hot aka one-of-K 方案对所有分类整数特征进行编码。根据结果​​,实际上只有 51 个参数会影响预测模型。我想调查这些参数,但它们的编码如上所述。您知道如何提取哪个分类整数特征对应于哪个热编码数组吗?谢谢!