问题标签 [label-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
102 浏览

python - 如何创建一个函数来执行标签编码

我有数据框 -

我想编写一个函数来用该列中的频率计数替换每个值。例如 colA 现在将是[3, 3, 3, 2, 2]

我试图通过创建一个包含值和频率计数的字典来做到这一点,将该字典分配给一个变量freq,然后将列值映射到freq. 我写了以下函数

当我运行以下命令 LabelEncode_method1(df.colA)时,我得到了结果3, 3, 3, 2, 2。但是,当我调用 dataframedf时,值colA仍然是'a', 'a', 'a', 'b', 'b'

  1. 我究竟做错了什么。如何修复我的功能?
  2. 如何编写另一个循环遍历所有列并将值映射到freq的函数,而不是为每列调用函数 3 次。
0 投票
1 回答
194 浏览

python - 使用列名作为列表在 Dataframe 的列中迭代,然后在 Python 中循环遍历列表

我正在尝试对 Dataframe 的特定列进行 LabelEncode。我已将这些列名存储在列表中(cat_features)。现在我想使用一个 For 循环来遍历这个列表的元素(它们是字符串)并使用这些元素来访问数据框的列。但它说

由于我正在访问已经是字符串的列表元素。所以我不明白为什么它会抛出那个错误。请帮助我理解为什么它不起作用以及我能做些什么来使它起作用。

0 投票
2 回答
682 浏览

python - 为训练和测试数据集中的多列应用标签编码器

我有一个数据集,其中包含多个具有字符串格式值的列。现在我需要使用 labelEncoder 将这些文本列转换为数值。在下面的 e,gy 是我的 tain 数据集的目标,A0 到 A13 是不同的特征。还有 50 多个功能,但我在这里提供了一个子集。现在我如何将 labelencoder 应用于从 A0 到 A8 的数据集,并创建一个新的编码数据帧来创建模型?我知道我们可以做类似下面的事情,但这会说只编码一列。我想将编码器应用于从 A0 到 A8 的所有列,然后将数据提供给模型。我怎样才能做到这一点 ?

下面的示例数据

0 投票
1 回答
4288 浏览

python - 对训练和测试数据帧使用相同的标签编码器

我有 2 个不同的 csv,其中包含训练数据和测试数据。我从这些 train_features_df 和 test_features_df 创建了两个不同的数据框。请注意,测试和训练数据有多个分类列,因此我需要在它们上应用 labelEncoder,因为它适用于我的数据集。所以我在训练和测试数据上分别应用了标签编码器。当我打印训练和测试数据集的新编码值时,我看到对于相同特征的相同分类值,新编码数据的输出是不同的。这是否意味着我必须合并训练和测试数据。然后应用标签编码,然后再将它们分开?

上面的输出如下: -

如果我们在 lebel 编码后的训练数据帧中看到az,第一列中的值被转换为值 20,而在 lebel 编码后的测试数据帧az中,第一列中的值被转换为值 21。

0 投票
1 回答
482 浏览

python - ValueError:一个系列的真值在一个热编码错误中不明确

我有下面的一段代码,我正在尝试使用一个热编码器。但是我得到了errorValueError:一个系列的真值是模棱两可的。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。

我在最后一行收到此错误“ValueError:系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。在线的ohe.fit_transform(train_features_df)

要求的完整回溯消息如下:-

​</p>

0 投票
1 回答
84 浏览

python - scikitkearn 标签编码器和旧的分类编码器有什么区别?

在 scikit learn 中加入 label encoder 之前,有一个东西叫 categorical encoder,但我不知道两者的区别,因为它们似乎都在做同样的事情,而 LabelEncoded 似乎是 CagoricalEncoder 的新名称。这是准确的吗?另外,这两者和 LabelBinarizer 有什么区别,因为它们对我来说似乎都有相同的目的?

0 投票
3 回答
1619 浏览

python - 如何“标签编码”这个多标签数据集?

这是一个小数据帧,其中包含我需要编码的非常小的数据片段。要编码的数据帧

我目前的工作是使用 SciKit-Learns LabelEncoder(),

我现在已经将所有我想要的目标添加到编码器中,所以现在我需要开始编码。问题是 LabelEncoder 接受这样的参数。

现在这是第一行的正确编码,但我将如何为每一行执行此操作?我不认为手工编写它是非常可行的,因为我的实际数据集大约有 6000 个样本。

我也不确定目标是否应该用逗号分隔,我总是可以改变它,但我的最终目标是获得一个带有编码标签而不是分类标签的新数据框。

此外,由于编码器返回单个数组,如果我要对每一行做同样的事情,每行都有不同数量的标签(即(狗,动物)而不是(本地)),我需要附加每个数组制作矩阵,但这也是我不知道该怎么做的事情。非常感谢你的帮忙!

0 投票
1 回答
57 浏览

python - 当我在管道上尝试 LabelEncoder 时,为什么管道会抛出 FitFailedWarining?

我是机器学习的新手,并试图制作一个项目来让我忙碌,所以我不太了解它是如何sklearn工作的。主要目标是训练模型来预测分类变量。当我尝试模型labelEncodingy变量时,出现以下错误:

这是我正在使用的代码

任何帮助表示赞赏,如果您需要更多信息,请发表评论。

0 投票
1 回答
15 浏览

transform - 标签编码器结果类的反向函数

我已经使用标签编码器来转换数据集的“A”列。假设新列被称为“B”。现在我使用回归算法来预测“B”列。但我需要一个预测类仅以“A”形式。我正在使用反向变换函数这样做,但是在对预测数据使用反向变换函数后它会给出错误。

0 投票
1 回答
30 浏览

python - 在映射系列内的字典以标记分类值时,将输出系列全部设为空

在此处输入图像描述在此处输入图像描述在此处输入图像描述 zipcode =[str(x) for x in zipcode] label = list(range(len(zipcode)))

在上面的代码之后,我将整个列作为Null值而不是在数字标签中获取所有