问题标签 [one-hot-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1648 浏览

python - Pandas One 热门编码:将不太常见的类别捆绑在一起

我正在对具有大约 18 种不同值的分类列进行热编码。我只想为那些出现超过某个阈值(比如说 1%)的值创建新列,other values如果值不是那些频繁值,则创建另一个名为 1 的列。

我正在使用 Pandas 和 Sci-kit 学习。我已经探索了 pandasget_dummies和 sci-kit learn's one hot encoder,但不知道如何将不太频繁的值捆绑到一列中。

0 投票
0 回答
169 浏览

python - How do I use OneHotEncoding in scikit to encode categorical data in conjunction with a DecisionTreeClassifier?

Right now I have the following code that gets some features and labels data from a csv file and uses them to create a DecisionTreeClassifier model and fit it.

I actually have a few other fields in the csv I would like to load that are categorical data. They are in row indexes 7 and 8. The categorical data in row index 7 can be one of 4 categories and the categorical data in row index 8 can be one of 5 categories.

I want to add these to my features and then pass them into the OneHotEncoding class somehow to turn them into categorical data the model can be fitted with: The update code with some psuedocode for what I want to do is below:

How can I do this?

0 投票
1 回答
1212 浏览

python - 使用 scikit-learn 的 One-hot 编码

我正在做一个机器学习项目,我的数据集的一个特征是分类数据。该数据首先存储在尺寸为 的熊猫系列 ( <class 'pandas.core.series.Series'>)mesh(2000,)。行数对应于数据实例的总数。每行包含该数据实例所属的类别字符串,其中类别用逗号分隔。有数百个不同的类别。例如,

在这个例子Aged中是一个类别和Angiotensin-Converting Enzyme Inhibitors另一个。正如您在示例中看到的那样,同一类别可能会出现多次,但如果该类别仅在字符串中出现一次,则编码应该没有不同。

我希望使用 one-hot 编码来表示它们。为此,我使用以下代码:

但是,这会产生一个 numpy 维度数组(19, 37)。为什么会这样?

回应MaxU 的回答:

替换str(s).split(', ')为 时s.str.split(',\s*'),会产生以下错误:

0 投票
1 回答
190 浏览

python - 如何使用 scikit 正确进行一种热编码?

我的功能之一是一个分类变量,它可以采用 29 种不同的状态。我正在尝试使用一种热编码来转换它,以便我可以使用此功能构建预测模型。以下是我的代码:

但是当我尝试使用特征和标签来训练模型时,如下所示:

我收到以下运行时崩溃错误:

即生成 clf.fit 线。不知道我做错了什么 - 有什么想法吗?

0 投票
1 回答
1190 浏览

decode - keras 将向量嵌入到 one-hot

我在 NLP 问题中使用 keras。当我尝试根据前一个词预测下一个词时,会出现一个关于词嵌入的问题。我已经通过 keras 嵌入层将 one-hot 词转换为词向量,如下所示:

并使用这个 word_vector 做某事,模型最后给出另一个 word_vector。但我必须看看预测词到底是什么。如何将 word_vector 转回 word_one_hot?

0 投票
2 回答
1215 浏览

python - 如何对每行都有列表的数据帧进行一次热编码

我正在尝试将数据列表中包含列表的数据输入到机器学习算法中:

例如,患者可能有几种药物,并且对药物的几种反应他们也可能有名字。因此,如果他们服用超过 1 种药物,它将以 2 种或更多的形式出现。他们只有一个名字。

我相信 one-hot 编码是正确的方法。

这是我到目前为止所做的:

我有一个数据框:

我想得到类似的东西:

我试过这个:

但得到:

0 投票
0 回答
29 浏览

one-hot-encoding - 一种热编码变量 nm 模式数

我正在使用模式编号的图像标签mn. 在对海量数据集进行全面训练之前,我还改变了 convnet 训练以采用不同的最大模式数来测试它。

愚蠢的问题,但是,给定一个标签(m,n),我如何将其热编码为一个长度数组n*m

谢谢。

编辑:哎呀,这实际上很简单,

0 投票
3 回答
2126 浏览

r - 如何在 R 中使用大数据对多个变量进行热编码?

我目前有一个包含 260,000 行和 50 列的数据框,其中 3 列是数字,其余的是分类。我想对分类列进行一次热编码,以执行 PCA 并使用回归来预测类别。如何在 R 中完成以下示例?

0 投票
1 回答
2009 浏览

r - 一种创建 n-1 个虚拟变量的热编码

为了对数据集中的因子变量进行一次热编码,我在这篇文章中使用了用户“Ben”的强大功能:如何使用 data.table 对因子变量进行一次热编码?

该函数为每个因子列的所有 n 个因子水平创建 n 个虚拟变量。但由于我想使用数据进行建模,所以每个因子列只需要 n-1 个虚拟变量。这是可能的,如果是的话,我该如何使用这个功能来做到这一点?

从我的角度来看,这条线必须调整:

这是输入表...

...以及所需的输出表:

0 投票
1 回答
3491 浏览

r - 如何将数据帧转换为热编码

我有一个数据框,其中 id 可以有多种事件类型

我想把它转换成格式

在 R 中实现这一目标的最佳方法是什么?有包吗?我尝试过使用假人:

new_my_data <- dummy.data.frame(eventtype,names = c(“event_type1”,“event_type2”,“event_type3”,“event_type4”,“event_type5”)

但它不起作用。我也尝试搜索,但可以找到解决此特定问题的方法。几乎所有帖子都假设所有人都知道一种热编码。

请帮忙。