问题标签 [one-hot-encoding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pandas One 热门编码:将不太常见的类别捆绑在一起
我正在对具有大约 18 种不同值的分类列进行热编码。我只想为那些出现超过某个阈值(比如说 1%)的值创建新列,other values
如果值不是那些频繁值,则创建另一个名为 1 的列。
我正在使用 Pandas 和 Sci-kit 学习。我已经探索了 pandasget_dummies
和 sci-kit learn's one hot encoder
,但不知道如何将不太频繁的值捆绑到一列中。
python - How do I use OneHotEncoding in scikit to encode categorical data in conjunction with a DecisionTreeClassifier?
Right now I have the following code that gets some features and labels data from a csv file and uses them to create a DecisionTreeClassifier model and fit it.
I actually have a few other fields in the csv I would like to load that are categorical data. They are in row indexes 7 and 8. The categorical data in row index 7 can be one of 4 categories and the categorical data in row index 8 can be one of 5 categories.
I want to add these to my features and then pass them into the OneHotEncoding class somehow to turn them into categorical data the model can be fitted with: The update code with some psuedocode for what I want to do is below:
How can I do this?
python - 使用 scikit-learn 的 One-hot 编码
我正在做一个机器学习项目,我的数据集的一个特征是分类数据。该数据首先存储在尺寸为 的熊猫系列 ( <class 'pandas.core.series.Series'>
)mesh
中(2000,)
。行数对应于数据实例的总数。每行包含该数据实例所属的类别字符串,其中类别用逗号分隔。有数百个不同的类别。例如,
在这个例子Aged
中是一个类别和Angiotensin-Converting Enzyme Inhibitors
另一个。正如您在示例中看到的那样,同一类别可能会出现多次,但如果该类别仅在字符串中出现一次,则编码应该没有不同。
我希望使用 one-hot 编码来表示它们。为此,我使用以下代码:
但是,这会产生一个 numpy 维度数组(19, 37)
。为什么会这样?
回应MaxU 的回答:
替换str(s).split(', ')
为 时s.str.split(',\s*')
,会产生以下错误:
python - 如何使用 scikit 正确进行一种热编码?
我的功能之一是一个分类变量,它可以采用 29 种不同的状态。我正在尝试使用一种热编码来转换它,以便我可以使用此功能构建预测模型。以下是我的代码:
但是当我尝试使用特征和标签来训练模型时,如下所示:
我收到以下运行时崩溃错误:
即生成 clf.fit 线。不知道我做错了什么 - 有什么想法吗?
decode - keras 将向量嵌入到 one-hot
我在 NLP 问题中使用 keras。当我尝试根据前一个词预测下一个词时,会出现一个关于词嵌入的问题。我已经通过 keras 嵌入层将 one-hot 词转换为词向量,如下所示:
并使用这个 word_vector 做某事,模型最后给出另一个 word_vector。但我必须看看预测词到底是什么。如何将 word_vector 转回 word_one_hot?
python - 如何对每行都有列表的数据帧进行一次热编码
我正在尝试将数据列表中包含列表的数据输入到机器学习算法中:
例如,患者可能有几种药物,并且对药物的几种反应他们也可能有名字。因此,如果他们服用超过 1 种药物,它将以 2 种或更多的形式出现。他们只有一个名字。
我相信 one-hot 编码是正确的方法。
这是我到目前为止所做的:
我有一个数据框:
我想得到类似的东西:
我试过这个:
但得到:
one-hot-encoding - 一种热编码变量 nm 模式数
我正在使用模式编号的图像标签m
和n
. 在对海量数据集进行全面训练之前,我还改变了 convnet 训练以采用不同的最大模式数来测试它。
愚蠢的问题,但是,给定一个标签(m,n)
,我如何将其热编码为一个长度数组n*m
?
谢谢。
编辑:哎呀,这实际上很简单,
r - 如何在 R 中使用大数据对多个变量进行热编码?
我目前有一个包含 260,000 行和 50 列的数据框,其中 3 列是数字,其余的是分类。我想对分类列进行一次热编码,以执行 PCA 并使用回归来预测类别。如何在 R 中完成以下示例?
r - 一种创建 n-1 个虚拟变量的热编码
为了对数据集中的因子变量进行一次热编码,我在这篇文章中使用了用户“Ben”的强大功能:如何使用 data.table 对因子变量进行一次热编码?
该函数为每个因子列的所有 n 个因子水平创建 n 个虚拟变量。但由于我想使用数据进行建模,所以每个因子列只需要 n-1 个虚拟变量。这是可能的,如果是的话,我该如何使用这个功能来做到这一点?
从我的角度来看,这条线必须调整:
这是输入表...
...以及所需的输出表:
r - 如何将数据帧转换为热编码
我有一个数据框,其中 id 可以有多种事件类型
我想把它转换成格式
在 R 中实现这一目标的最佳方法是什么?有包吗?我尝试过使用假人:
new_my_data <- dummy.data.frame(eventtype,names = c(“event_type1”,“event_type2”,“event_type3”,“event_type4”,“event_type5”)
但它不起作用。我也尝试搜索,但可以找到解决此特定问题的方法。几乎所有帖子都假设所有人都知道一种热编码。
请帮忙。