问题标签 [one-hot-encoding]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1094 问题

0 投票

3 回答

1648 浏览

python - Pandas One 热门编码：将不太常见的类别捆绑在一起

我正在对具有大约 18 种不同值的分类列进行热编码。我只想为那些出现超过某个阈值（比如说 1%）的值创建新列，other values如果值不是那些频繁值，则创建另一个名为 1 的列。

我正在使用 Pandas 和 Sci-kit 学习。我已经探索了 pandasget_dummies和 sci-kit learn's one hot encoder，但不知道如何将不太频繁的值捆绑到一列中。

python pandas scikit-learn one-hot-encoding

2017-04-10T23:04:04.047

0 投票

0 回答

169 浏览

python - How do I use OneHotEncoding in scikit to encode categorical data in conjunction with a DecisionTreeClassifier?

Right now I have the following code that gets some features and labels data from a csv file and uses them to create a DecisionTreeClassifier model and fit it.

I actually have a few other fields in the csv I would like to load that are categorical data. They are in row indexes 7 and 8. The categorical data in row index 7 can be one of 4 categories and the categorical data in row index 8 can be one of 5 categories.

I want to add these to my features and then pass them into the OneHotEncoding class somehow to turn them into categorical data the model can be fitted with: The update code with some psuedocode for what I want to do is below:

How can I do this?

python machine-learning scikit-learn one-hot-encoding

2017-04-13T06:03:42.530

0 投票

1 回答

1212 浏览

python - 使用 scikit-learn 的 One-hot 编码

我正在做一个机器学习项目，我的数据集的一个特征是分类数据。该数据首先存储在尺寸为的熊猫系列 ( <class 'pandas.core.series.Series'>)mesh中(2000,)。行数对应于数据实例的总数。每行包含该数据实例所属的类别字符串，其中类别用逗号分隔。有数百个不同的类别。例如，

在这个例子Aged中是一个类别和Angiotensin-Converting Enzyme Inhibitors另一个。正如您在示例中看到的那样，同一类别可能会出现多次，但如果该类别仅在字符串中出现一次，则编码应该没有不同。

我希望使用 one-hot 编码来表示它们。为此，我使用以下代码：

但是，这会产生一个 numpy 维度数组(19, 37)。为什么会这样？

回应MaxU 的回答：

替换str(s).split(', ')为时s.str.split(',\s*')，会产生以下错误：

python numpy scikit-learn categorical-data one-hot-encoding

2017-04-14T10:33:05.913

0 投票

1 回答

190 浏览

python - 如何使用 scikit 正确进行一种热编码？

我的功能之一是一个分类变量，它可以采用 29 种不同的状态。我正在尝试使用一种热编码来转换它，以便我可以使用此功能构建预测模型。以下是我的代码：

但是当我尝试使用特征和标签来训练模型时，如下所示：

我收到以下运行时崩溃错误：

即生成 clf.fit 线。不知道我做错了什么 - 有什么想法吗？

python machine-learning scikit-learn one-hot-encoding

2017-04-17T19:35:52.790

0 投票

1 回答

1190 浏览

decode - keras 将向量嵌入到 one-hot

我在 NLP 问题中使用 keras。当我尝试根据前一个词预测下一个词时，会出现一个关于词嵌入的问题。我已经通过 keras 嵌入层将 one-hot 词转换为词向量，如下所示：

并使用这个 word_vector 做某事，模型最后给出另一个 word_vector。但我必须看看预测词到底是什么。如何将 word_vector 转回 word_one_hot？

decode keras embedding one-hot-encoding

2017-04-22T05:44:44.320

0 投票

2 回答

1215 浏览

python - 如何对每行都有列表的数据帧进行一次热编码

我正在尝试将数据列表中包含列表的数据输入到机器学习算法中：

例如，患者可能有几种药物，并且对药物的几种反应他们也可能有名字。因此，如果他们服用超过 1 种药物，它将以 2 种或更多的形式出现。他们只有一个名字。

我相信 one-hot 编码是正确的方法。

这是我到目前为止所做的：

我有一个数据框：

我想得到类似的东西：

我试过这个：

但得到：

python pandas one-hot-encoding

2017-04-23T02:04:10.523

0 投票

0 回答

29 浏览

one-hot-encoding - 一种热编码变量 nm 模式数

我正在使用模式编号的图像标签m和n. 在对海量数据集进行全面训练之前，我还改变了 convnet 训练以采用不同的最大模式数来测试它。

愚蠢的问题，但是，给定一个标签(m,n)，我如何将其热编码为一个长度数组n*m？

谢谢。

编辑：哎呀，这实际上很简单，

one-hot-encoding

2017-04-23T06:57:52.590

0 投票

3 回答

2126 浏览

r - 如何在 R 中使用大数据对多个变量进行热编码？

我目前有一个包含 260,000 行和 50 列的数据框，其中 3 列是数字，其余的是分类。我想对分类列进行一次热编码，以执行 PCA 并使用回归来预测类别。如何在 R 中完成以下示例？

r categorical-data one-hot-encoding bigdata

2017-04-24T01:59:16.660

0 投票

1 回答

2009 浏览

r - 一种创建 n-1 个虚拟变量的热编码

为了对数据集中的因子变量进行一次热编码，我在这篇文章中使用了用户“Ben”的强大功能：如何使用 data.table 对因子变量进行一次热编码？

该函数为每个因子列的所有 n 个因子水平创建 n 个虚拟变量。但由于我想使用数据进行建模，所以每个因子列只需要 n-1 个虚拟变量。这是可能的，如果是的话，我该如何使用这个功能来做到这一点？

从我的角度来看，这条线必须调整：

这是输入表...

...以及所需的输出表：

r data.table one-hot-encoding

2017-04-24T15:05:12.747

0 投票

1 回答

3491 浏览

r - 如何将数据帧转换为热编码

我有一个数据框，其中 id 可以有多种事件类型

我想把它转换成格式

在 R 中实现这一目标的最佳方法是什么？有包吗？我尝试过使用假人：

new_my_data <- dummy.data.frame（eventtype，names = c（“event_type1”，“event_type2”，“event_type3”，“event_type4”，“event_type5”）

但它不起作用。我也尝试搜索，但可以找到解决此特定问题的方法。几乎所有帖子都假设所有人都知道一种热编码。

请帮忙。

r dataframe one-hot-encoding

2017-04-25T03:44:26.263

1 2 3 4 5 6 7 8 9 10