问题标签 [label-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1444 浏览

python - 标签编码中的for循环和一个热编码器

我的数据集包含分类变量,所以我使用标签编码和一个热编码器,我的代码如下

我可以使用循环来确保我的代码包含较少的代码行吗?

如何使用for 循环来优化代码行数?请帮忙!

0 投票
0 回答
48 浏览

apache-spark - Spark:对可变长度特征进行标签编码的最佳方法是什么?

对于 Spark,StringIndexerSpark ML 中有一个可以对给定列进行标签编码。但是它不能直接处理列是可变长度特征(或多值特征)的情况。例如,

country_listtypeofwork_list是可变长度特征。它们在一列中可以有多个值,并且值的数量是可变的。当我想对它们进行标签编码时,我不能StringIndexer直接在这些列上使用。

country_list列为例,我需要的结果如下:

在 Spark 中对此类列进行标签编码的最佳方法是什么?

我想的一种方法是首先explode进入country_list一个单列数据帧,然后StringIndexer在这个临时数据帧上进行标签编码()。在那之后dropDulicate,然后collect它,现在我应该有映射了。然后我可以broadcast映射到所有工作机器。原始 Dataframe 可以使用UDF包装映射来转换country_list列。我想知道有没有更简单的方法可以做到这一点?

谢谢你。

0 投票
0 回答
609 浏览

python-3.x - LabelEncoder: ValueError- y 包含以前看不见的标签:

我正在使用随机森林进行预测,我想知道 y 代码有什么问题,并且编码是否正确完成`

`请不要分享我尝试过但没有帮助我的其他stackoverflow链接,请不要复制粘贴官方文档中的示例

0 投票
1 回答
47 浏览

python - 可以在训练集中编码分类数据,但不能在测试集中编码

我需要对我的测试集上的分类值进行编码,它会以某种方式抛出TypeError: argument must be a string or number. 我不知道为什么会发生这种情况,因为我可以对我的火车组做到这一点。我的意思是它们是训练/测试功能集,因此它们完全相同,它们的区别当然只是行数。我不知道如何解决这个问题,我尝试为每个使用不同的 LabelEncoder,但它仍然无法修复错误。请有人帮助我。

供您参考,分类数据在训练和测试特征集中的第 8 列

0 投票
3 回答
870 浏览

python - 应用标签编码器后对用户标准缩放器有意义吗?

我正在一个数据集上启动一个项目,该数据集包含一个类别的超过 5k 个唯一值。

我的问题是,在使用标签编码器“枚举”类别之后,使用 Standard Scaler 让我的机器学习模型的数据更“易于管理”是否有意义?

请记住,我总共有超过 500,000 个条目和 5,000 此特定列的唯一类别。

这更多是关于它背后的直觉,而不是如何编码,但我认为这应该是问的地方。

0 投票
1 回答
28 浏览

python - 如何应用函数来获取熊猫中编码的特定列

我有这个功能:

我列出了这样的某些列:

在这里,我希望该函数get_class应用于cols并在cols_en. 我想自动化这段代码:

想法是将函数应用于列表中的所有列cols并获取输出,其中列get_class应用了函数,输出列_en在末尾。也许map也使用功能。有什么想法可以实现吗?我已经阅读了几篇类似的文章,但没有太大帮助。

0 投票
1 回答
71 浏览

python - 如何按照我的意愿将每个分类唯一值编码为数值?

如何按照我的意愿将每个分类唯一值编码为数值?

HeatingQC:加热质量和条件

我试图将这些分类数据编码为数字。所以我使用了sklearn.processing.LabelEncoder。我期望的是给 Ex 分配一个更大的数字,给 Po 分配一个更少的数字。即Ex = 4,Gd = 3,依此类推。

输出是

如何将 ex 编码为 4 并将 Po 编码为 0?

0 投票
3 回答
47 浏览

python - 这个括号是从哪里来的?

我是熊猫的新手,我处于基础阶段。

我尝试对一些数据进行编码并将相同的列放入 data_enc。

但是随后的输出是出乎意料的。那是

我的问题是,括号从何而来,如何删除它们?

0 投票
0 回答
999 浏览

pandas - le.transform() ValueError: y contains previous unseen labels: [1, 2, 3, 4]

我正在运行一个非常基本的代码来创建编码器类,然后使用相同的类来编码一个新的数据帧。在这段代码中,我不需要使用np.saveand np.load,但是在我的实际实现中,我需要重新加载编码器来转换一个新的数据帧。我试图了解如何在一个数据帧上创建一个编码器类,然后在另一个脚本中加载该编码器并转换一个新的数据帧。

这给了我以下错误:

当我在从内存加载之前打印 le.classes_ 时,它是这样的: array([1, 2, 3, 4])

但是当我在 np.load() 之后打印它时,它是这样的: {1: 0, 2: 1, 3: 2, 4: 3}

以下是有关 le.classes after 的更多信息np.load()

我试图了解这些功能是如何工作的。我运行了相同的代码,但是对于 col.B,我又遇到了另一个错误。

这个错误是TypeError: argument must be a string or number

这是完整的堆栈:

任何帮助表示赞赏!

0 投票
1 回答
91 浏览

python - 如何将单个输入的模型输出转换回预测类之一?

我一直在使用 LabelEncoder 进行分类输出

输出有4个类,编码后的标签是这样的 编码标签

模型看起来像这样:

训练后,同时预测如何将输出作为类之一?我尝试使用:

我怎么知道输出属于哪个类?