问题标签 [label-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
120 浏览

pandas - 在两个不同的数据框上使用相同的类别标签标准

我有一个包含分类特征的数据帧,我用以下方式编码:

如果我在另一个具有相同类别字段的数据帧上应用与上面相同的代码,则映射将被打乱,但我需要它与第一个数据帧一致。

有没有办法成功地将相同的映射category:label应用于另一个具有相同分类值的数据帧?

0 投票
1 回答
745 浏览

machine-learning - 标签编码是否足以用于输出标签?

对于序数特征,使用标签编码是有意义的。但是对于分类特征,我们使用一种热编码。但这些是输入特征的约定。但是对于输出变量,如果输出标签是分类的,是否有必要使用一种热编码?或者我也可以使用标签编码?哪一个更可取?

我正在训练一个有 120 个类的水果分类器。我使用在 ImageNet 上预训练的 ResNet50 模型作为特征提取器,并使用这些特征训练逻辑回归分类器(迁移学习)。由于有 120 个类,对于标签编码,标签的范围从 0 到 119。训练模型保持标签编码是否可以?我问这个是因为在 sklearn 的以下文档中,他们允许我这样做:

sklearn.preprocessing.LabelEncoder

他们在这里说:

...“这个转换器应该用于编码目标值,即 y,而不是输入 X。”

但是我很困惑为什么这样做是可以的,因为在标签编码中,每个输出变量都没有获得与我使用一种热编码时相同的优先级。

0 投票
2 回答
50 浏览

scikit-learn - Sklearn Random Forrest 不同标签编码的不同精度值

我正在使用 sklearn Random Forrest 来训练我的模型。使用与模型相同的输入特征,我首先尝试使用 label_binarize 传递目标标签,以创建我的目标标签的一个热编码,然后我尝试使用 label_encoder 对我的目标标签进行编码。在这两种情况下,我都会得到不同的准确度分数。发生这种情况是否有特定原因,因为我只是使用不同的方法对标签进行编码而不更改任何输入特征。

0 投票
1 回答
29 浏览

python - 保存的模型(随机森林)不能用作“新拟合”模型 - 类别变量的问题

我在 scikit-learn(随机森林)中建立了一个模型并保存了它。然后我再次加载这个模型并尝试将它应用到用于训练的同一数据集。我收到错误消息

“无法将字符串转换为浮点数”

因为我有几个类别变量。但是在我保存模型之前,我能够将这个模型应用到这个数据集而没有错误。问题似乎是关于这两个类别变量的信息在我保存模型时没有保存。事实上,我使用Labelencoder了这些变量。有什么方法可以保存有关这些类别变量的信息,以便保存的模型与“新装”模型一样工作?提前致谢!

0 投票
2 回答
67 浏览

python - 参数必须是字符串或数字 [标签编码]

我正在尝试将我的数据框附加到新的数据框,但我收到“参数必须是字符串或数字”错误。

在创建新数据框时,我在这里遇到了错误:

0 投票
0 回答
24 浏览

machine-learning - 有没有办法在单列中标记编码逗号分隔值..?

我有这个包含多个值的列..:

在此处输入图像描述

我想通过标签编码对其进行预处理,我该如何进一步处理?我不想要一个热编码它。因为它是为了分类问题

0 投票
1 回答
577 浏览

machine-learning - 编码分类列 - 标签编码与决策树的一种热编码

决策树和随机森林使用拆分逻辑的工作方式,我的印象是标签编码对于这些模型来说不是问题,因为我们无论如何都要拆分列。例如:如果我们有性别为“男”、“女”和“其他”,使用标签编码,它变成0,1,2,解释为0<1<2。但是由于我们要拆分列,我认为这并不重要,因为我们要拆分“男性”还是“0”是一回事。但是当我在数据集上同时尝试标签和一种热编码时,一种热编码提供了更好的准确性和精度。你能不能分享你的想法。

0 投票
3 回答
2600 浏览

python - 为什么 sklearn 中的 LabelEncoder 只能用于目标变量?

我试图创建一个带有 LabelEncoder 的管道来转换分类值。

但这会引发 TypeError:

在进一步的参考中,我发现像 LabelEncoders 这样的转换器不应该与特征一起使用,而应该只用于预测目标。

从文档:

sklearn.preprocessing.LabelEncoder 类

使用 0 和 n_classes-1 之间的值对目标标签进行编码。

这个转换器应该用于编码目标值,即 y,而不是输入 X。

我的问题是,为什么我们不能在特征变量上使用 LabelEncoder,还有其他具有这种情况的转换器吗?

0 投票
1 回答
125 浏览

python-3.x - 在 tkinter 中显示文本列表

我想显示我的标签编码的结果,tkinter就像我print在 python 中使用函数显示它一样。

此代码产生如下结果:

我如何在 tkinter 中做同样的事情?我使用以下代码但收到错误。我的目标是将编码的 REPORT_FAMILY 列显示到 REPORT_FAMILY 中的相应类别。

我收到以下错误:

0 投票
1 回答
738 浏览

python - Python - 如何在通过 train_test_split 拆分后反转使用 LabelEncoder 编码的数据的编码?

我正在尝试导出使用LabelEncoder编码的数据集的未编码版本(从sklearn.preprocessing,以启用机器学习算法的应用),然后拆分为训练和测试数据集(使用train_test_split)。

我想将测试数据导出到 excel 但使用原始值。到目前为止,我找到的示例仅在一个变量上使用了LabelEncoderinverse_transform的方法。我想将它自动应用于最初编码的多个列。

这是一个示例数据:

假设“res”是目标变量,“code”和“sp”是特征。