问题标签 [label-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
12 浏览

python - 在数据上使用 LabelEnode 后无法使用 SVC

类型错误:

必须是真实的不,不是str。

我做了以下代码,但它仍然显示此错误。请帮我删除这个错误。谢谢!

0 投票
2 回答
35 浏览

python - 使用标签编码器时出现 TypeError

我正在使用 Beers 数据集,我想在其中使用数据类型“对象”对数据进行编码。以下是我的代码。

发生以下错误。

TypeError:编码器要求其输入统一为字符串或数字。得到 ['float', 'str']

任何见解都有帮助!!!

0 投票
1 回答
87 浏览

machine-learning - 如何在不使用 .toPandas() hackPySpark 的情况下将统计频率分配给 PySpark 中的数据帧记录/行?

我是 PySpark 的新手,我想将预处理(包括 Python 的编码和规范化部分脚本)转换为 PySpark 以用于合成数据。(A 列和 C 列是分类的)首先,我有所谓的 Spark 数据框,sdf 包括 5 列:

下面是示例:

现在我想分配除其他功能之外的统计频率,并将结果与sdf​​ . 到目前为止,我可以使用 pythonic 脚本来做到这一点:

问题:在将 Spark 数据帧转换为 Pandas 数据帧toPandas()以优化管道并以 100% 火花形式处理它的情况下,翻译 Preprocessing 的最佳方法是什么?

预期的输出以 Spark 数据框的形式显示如下:

0 投票
0 回答
11 浏览

linear-regression - 标称属性“标签编码为 1、2、3”我可以直接用于没有假人的随机森林算法

我的数据集前“应用程序域”具有标称属性,因此我应用了“标签编码”并且已经编码,例如“银行系统 =1 ”、“ Besboke sysytems =2

我的问题是:

如果我将数据类型分配为那些名义属性的对象.. 直接在 python 上的随机森林上使用就足够了.. 或者应该首先应用虚拟变量。

因为我尝试使用线性回归,并将它们视为数值变量,所以我希望给我一个错误,因为它们的数据类型是“对象

0 投票
1 回答
24 浏览

python - 有没有办法知道哪个分类值被赋予了什么标签?

我正在处理包含“好”、“中”、“坏”的分类列的数据,现在我想知道哪个数字已分配给哪个类别,即中等分配为 1 还是 2?

0 投票
0 回答
8 浏览

text - SklearnClassifier.train(labeled_featuresets)

我急需帮助T_T

我正在尝试将 TF-IDF 功能传递给 SklearnClassifier.train()。TF-IDF 特征由以下代码生成

然后我将其输入 SklearnClassified.train() 如下

它不起作用,我想我需要输入 leabel_featuresets,但我不知道如何将 tfidf_features 转换为 labelled_featuresets。

0 投票
1 回答
24 浏览

python - 在 LabelEncoder 中自定义

尝试在 csv 文件中编码数据。课堂上的TA推荐sklearn中的LabelEncoder。有一列名称为education_level。我需要按“高、中、低”的顺序对其进行编码。但是 LabelEncoder.fit_transform 默认使用 ASCII 码,这意味着它将按照“高、低、中”的顺序进行编码。

找不到使用自定义顺序对其进行编码的方法。下面附上代码。

0 投票
1 回答
54 浏览

python - 按值计数的标签编码

我尝试为我的城市进行标签编码。但是,我希望它根据哪个城市比其他城市多来标记。比方说;奥斯陆有 500 行柏林有 400 行那不勒斯在数据集中有 300 行所以标签编码将根据值计数标记这些城市;奥斯陆应标记为 0,柏林应标记为 1,那不勒斯应标记为 2

我怎么能这样做?

0 投票
2 回答
42 浏览

python - 如何从 LabelEncoder 获取真实标签

我有以下代码片段:

这里y_pred给出了编码的标签。如何在编码之前获得真正的标签?

0 投票
1 回答
27 浏览

machine-learning - 在管道中实现时,用于目标变量的 LabelEncoder() 的替代方案

我正在开发一个分类基础模型。我已经将 ColumnTransformer 和 Pipeline 的概念用于特征工程和选择、模型选择以及一切。我想将我的分类目标(因)变量编码为管道内的数字。开始知道我们不能在 CT 和 Pipeline 中使用 LabelEncoder,因为拟合只需要 (y) 并引发错误,“TypeError: fit_transform() 需要 2 个位置参数,但给出了 3 个。” 目标变量还有哪些其他选择?找到了很多类似的堆栈,但功能和建议是使用 OHE 和 OrdinalEncoder!