问题标签 [label-encoding]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

87 问题

0 投票

0 回答

12 浏览

python - 在数据上使用 LabelEnode 后无法使用 SVC

类型错误：

必须是真实的不，不是str。

我做了以下代码，但它仍然显示此错误。请帮我删除这个错误。谢谢！

2021-09-04T19:49:15.150

0 投票

2 回答

35 浏览

python - 使用标签编码器时出现 TypeError

我正在使用 Beers 数据集，我想在其中使用数据类型“对象”对数据进行编码。以下是我的代码。

发生以下错误。

TypeError：编码器要求其输入统一为字符串或数字。得到 ['float', 'str']

任何见解都有帮助！！！

python pandas scikit-learn label-encoding

2021-09-14T15:05:02.190

0 投票

1 回答

87 浏览

machine-learning - 如何在不使用 .toPandas() hackPySpark 的情况下将统计频率分配给 PySpark 中的数据帧记录/行？

我是 PySpark 的新手，我想将预处理（包括 Python 的编码和规范化部分脚本）转换为 PySpark 以用于合成数据。（A 列和 C 列是分类的）首先，我有所谓的 Spark 数据框，sdf 包括 5 列：

下面是示例：

现在我想分配除其他功能之外的统计频率，并将结果与sdf . 到目前为止，我可以使用 pythonic 脚本来做到这一点：

问题：在不将 Spark 数据帧转换为 Pandas 数据帧toPandas()以优化管道并以 100% 火花形式处理它的情况下，翻译 Preprocessing 的最佳方法是什么？

预期的输出以 Spark 数据框的形式显示如下：

machine-learning pyspark normalization feature-engineering label-encoding

2021-09-19T00:25:40.393

0 投票

0 回答

11 浏览

linear-regression - 标称属性“标签编码为 1、2、3”我可以直接用于没有假人的随机森林算法

我的数据集前“应用程序域”具有标称属性，因此我应用了“标签编码”并且已经编码，例如“银行系统 =1 ”、“ Besboke sysytems =2 ”

我的问题是：

如果我将数据类型分配为那些名义属性的对象.. 直接在 python 上的随机森林上使用就足够了.. 或者应该首先应用虚拟变量。

因为我尝试使用线性回归，并将它们视为数值变量，所以我希望给我一个错误，因为它们的数据类型是“对象”

linear-regression random-forest categorical-data dummy-variable label-encoding

2021-09-20T07:33:12.810

0 投票

1 回答

24 浏览

python - 有没有办法知道哪个分类值被赋予了什么标签？

我正在处理包含“好”、“中”、“坏”的分类列的数据，现在我想知道哪个数字已分配给哪个类别，即中等分配为 1 还是 2？

python jupyter-notebook data-science label-encoding

2021-09-21T13:47:02.557

0 投票

0 回答

8 浏览

text - SklearnClassifier.train(labeled_featuresets)

我急需帮助T_T

我正在尝试将 TF-IDF 功能传递给 SklearnClassifier.train()。TF-IDF 特征由以下代码生成

然后我将其输入 SklearnClassified.train() 如下

它不起作用，我想我需要输入 leabel_featuresets，但我不知道如何将 tfidf_features 转换为 labelled_featuresets。

text feature-selection tf-idf label-encoding labeled-statements

2021-09-27T13:48:34.453

0 投票

1 回答

24 浏览

python - 在 LabelEncoder 中自定义

尝试在 csv 文件中编码数据。课堂上的TA推荐sklearn中的LabelEncoder。有一列名称为education_level。我需要按“高、中、低”的顺序对其进行编码。但是 LabelEncoder.fit_transform 默认使用 ASCII 码，这意味着它将按照“高、低、中”的顺序进行编码。

找不到使用自定义顺序对其进行编码的方法。下面附上代码。

python dataframe label-encoding

2021-11-18T07:46:14.510

0 投票

1 回答

54 浏览

python - 按值计数的标签编码

我尝试为我的城市进行标签编码。但是，我希望它根据哪个城市比其他城市多来标记。比方说；奥斯陆有 500 行柏林有 400 行那不勒斯在数据集中有 300 行所以标签编码将根据值计数标记这些城市；奥斯陆应标记为 0，柏林应标记为 1，那不勒斯应标记为 2

我怎么能这样做？

python pandas label-encoding

2021-11-29T07:00:39.103

0 投票

2 回答

42 浏览

python - 如何从 LabelEncoder 获取真实标签

我有以下代码片段：

这里y_pred给出了编码的标签。如何在编码之前获得真正的标签？

python scikit-learn label-encoding

2021-11-29T09:21:30.250

0 投票

1 回答

27 浏览

machine-learning - 在管道中实现时，用于目标变量的 LabelEncoder() 的替代方案

我正在开发一个分类基础模型。我已经将 ColumnTransformer 和 Pipeline 的概念用于特征工程和选择、模型选择以及一切。我想将我的分类目标（因）变量编码为管道内的数字。开始知道我们不能在 CT 和 Pipeline 中使用 LabelEncoder，因为拟合只需要 (y) 并引发错误，“TypeError: fit_transform() 需要 2 个位置参数，但给出了 3 个。” 目标变量还有哪些其他选择？找到了很多类似的堆栈，但功能和建议是使用 OHE 和 OrdinalEncoder！

machine-learning artificial-intelligence pipeline label-encoding

2021-12-22T04:24:47.993

1 2 3 4 5 6 7 8 9 10

问题标签 [label-encoding]

Reference