问题标签 [label-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
778 浏览

python - One-Hot 编码和相关性

我对一列“ postcode”进行了一次性编码,我想看看它与标签编码为:(mass customer = 0, affluent customer = 1 and high net worth customer = 2)的财富段之间的相关性。

我想看看邮政编码和客户的财富之间是否存在相关性。问题是,我有很多列邮政编码,因为我有一个热编码。命名约定是 postcode_XXXX(XXXX 是 4 位数字)

我可以写什么来只找到这两个变量之间的相关性?我在数据框中有 100 多个其他列,所以我不想简单地使用该df.corr()方法。

0 投票
1 回答
25 浏览

python - 如何在 Python 中找到 fit_transform() 后编码值对应的分类名称?

我正在使用LabelEncoder(). 我想知道与编码值对应的分类名称是什么。例如:

当我使用它时,代码可以成功运行。但是我怎么知道编码tom=2nick=1?在处理大数据时,这是一个非常大的问题。我如何保存这些编码的分类信息?

提前感谢您的回答。

0 投票
2 回答
113 浏览

scikit-learn - 使用 sklearn LabelEncoder() 对整个数据帧进行标签编码

我想使用 Keras 的序列模型来预测序列。我的数据框包含字符串数据,因此我决定使用LabelEncodersklearn 库对字符串数据进行编码。

在此处输入图像描述

我试过这个代码片段:

给出这个结果:

在此处输入图像描述

此标签编码适用于具有不同值的每一列,即我需要将http://example.com/296表示为整个数据集的“2”。我将不胜感激提出解决方案。

我还尝试将数据集转换为元组并为此数据集使用字典,但对于不同列中的相同值,该键再次不是唯一的。

0 投票
0 回答
161 浏览

python-3.x - 如何在决策树中获取新数据的标签编码器

我在以下示例数据的帮助下执行决策树。

在此处输入图像描述

所以我把上面的数据转换成LabelEncoder来执行Decision Tree,成功创建了一个DT模型。

在此处输入图像描述

所以现在我的要求是我想预测下面的值,那么如何在 python 代码中传递这些值。

在此处输入图像描述

为了预测现有值,我可以使用下面的预测代码。

完整代码

0 投票
2 回答
176 浏览

python-3.x - 如何编码具有多种数据类型的数据集?

我有一个像这样的数据集:

在这里,我使用sklearn.preprocessing.LabelEncoder. 通过以下代码行:

但这甚至是对int类型的数字数据点进行编码,这不是必需的。

编码数据集:

我该如何纠正这个问题?

0 投票
1 回答
252 浏览

python-3.x - 如何解码 Pandas 数据框中的 LabelEncoder 实现的列?

我有一个数据集。我通过将分类对象转换为数字来练习特征工程,使用以下代码行:

但是这里inverse_tranform()并没有返回原始数据集。请帮我!

0 投票
1 回答
335 浏览

python - 在 sklearn 的管道中使用 LabelEncoder 给出: fit_transform 接受 2 个位置参数,但给出了 3 个

我一直在尝试运行一些 ML 代码,但在运行管道后我一直在拟合阶段步履蹒跚。我在各种论坛上环顾四周,没有多大用处。我发现有些人说你不能在管道中使用 LabelEncoder。我不确定那是多么真实。如果有人对此事有任何见解,我会很高兴听到他们的声音。

我不断收到此错误:

所以我不确定问题是来自我还是来自python。这是我的代码:

它运行良好,直到 run.fit 抛出错误。我很想听听任何人可能有的任何建议,并且任何可能的解决这个问题的方法也将不胜感激!谢谢你。

0 投票
2 回答
188 浏览

python - raise ValueError("Input contains NaN") ValueError: Input contains NaN 在尝试构建机器学习模型时

我正在尝试建立一个预测模型,但目前不断收到错误:raise ValueError("Input contains NaN") ValueError: Input contains NaN. 我尝试使用np.any(np.isnan(dataframe))and np.any(np.isnan(dataframe)),但我不断收到新的错误。例如,TypeError: ufunc 'isfinite' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

这是到目前为止的代码:

0 投票
0 回答
1126 浏览

python - return array(a, dtype, copy=False, order=order) ValueError: could not convert string to float: 'STRING' when building machine learning model

我收到以下错误:return array(a, dtype, copy=False, order=order) ValueError: could not convert string to float: 'BOX72'(BOX72 是第 5 列下的值)。

错误似乎与代码一致impute_knn.fit_transform(X)

这是到目前为止的代码:

我知道我可能可以使用类似的东西strip(),但我似乎无法弄清楚如何使用它来删除所有单元格的字符串之前或之后的任何空格(以防有其他类似的值条目)。我也,不知道这是否真的是解决方案。任何指示或帮助将不胜感激。谢谢你。

0 投票
2 回答
44 浏览

python - 使用权重对随机森林分类的​​字符串名义变量进行标签编码

我有 NYC 311 投诉数据集。我想构建一个随机森林分类器,它将获取有关投诉的分类输入特征并确定投诉类型。 以下是给定投诉记录的输入特征

所有这些特征都是名义变量(分类),我需要将字符串变量转换为浮点变量,然后再将它们提供给模型。我不愿意使用一种热标签编码,因为某些功能有 1000 多个类别,而且我的笔记本电脑可能无法进行进一步的计算。

我正在考虑使用每个变量的权重(特定类别的计数/总计数)而不是名义字符串变量?这会是一个好策略吗?