问题标签 [one-hot-encoding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何使 Spark 中的 onehotencoder 像 Pandas 中的 onehotencoder 一样工作?
当我在 Spark 中使用 onehotencoder 时,我会得到第四列的结果,这是一个稀疏向量。
但是,我想要的是为类别生成 3 列,就像它在熊猫中的工作方式一样。
scikit-learn - ValueError:无法处理多标签指示符和二进制的混合
我正在使用带有 scikit-learn 包装器的 Keras。特别是,我想使用 GridSearchCV 进行超参数优化。
这是一个多类问题,即目标变量只能在一组 n 个类中选择一个标签。例如,目标变量可以是“Class1”、“Class2”...“Classn”。
问题是,在交叉验证期间计算分数时,验证样本的真实标签是一次性编码的,而由于某种原因,预测会崩溃为二进制标签(当目标变量只有两个类时)。例如,这是堆栈跟踪的最后一部分:
如何指示 Keras/sklearn 以 one-hot 编码返回预测?
matlab - MATLAB:一键矩阵到直方图
我有一个单热编码矩阵(大小1E6 x 10
),其中每一行代表一个观察值,每一列代表一个类别。如何创建直方图来可视化每个类别的计数并在 x 轴上标记类别名称(我猜是垂直放置以防止重叠),而不仅仅是使用列号?
pandas - 如何在 Python 中的序数列上创建虚拟变量
我是 Python 新手。我使用 pandas get_dummies 在分类列上创建了虚拟列。如何在序数列上创建虚拟列(例如列 Rating 的值为 1、2、3 ...、10)
python - Python Numpy One 热门地区
制作这个 One Hot 编码矩阵的最佳方法是什么
作为
换句话说,如何解码 One Hot 数组?
python - 使用一个热编码器对离散和分类数据进行编码
我有一个涉及离散和连续数据变量的数据集。例如:性别、职业、薪水。薪水是一个包含大量信息来预测我的班级的字段。现在我有一个由 One Hot Encoder 映射的 Gender 和 Occupation 列。如何将工资值映射到编码后得到的输出数组。
在这个问题中,我尝试使用决策树对数据进行分类,因此我希望薪水保留它的值,以便决策树能够使用普通数字运算符预测最终类别。
sequences - 如何创建序列序列的一个热编码
我想对看起来像 [[5,7,11,9,13,1,...],[3,7,5,9,16,...] 的数据集进行一次热编码, ..]; 其中每个序列的长度为 24,每个序列中的最大可能整数为 33,序列总数为 200。每个序列是一个句子的整数表示。我如何才能对此进行有效的热编码?我试过了
pandas - 一种热编码分类特征 - 仅稀疏形式
我有一个具有 int 和分类特征的数据框。分类特征有两种类型:数字和字符串。
我能够对整数列和分类列进行热编码。当我尝试对作为字符串的分类列进行一个热编码时出现错误。
ValueError:无法将字符串转换为浮点数:'13367cc6'
由于数据框很大且基数很高,所以我只想将其转换为稀疏形式。我更喜欢使用的解决方案,from sklearn.preprocessing import OneHotEncoder
因为我熟悉它。
我也检查了其他问题,但没有一个能解决我的问题。
上面的数据框包含 4 行 3 列
列名 -['animal_id', 'animal_name', 'number']
假设 animal_id
和animal_name
作为类别存储在熊猫中,数字作为 int64 dtype 存储。
pandas - OneHotEncoding 训练数据和测试数据之间的映射问题
我已经通过 sklearn OneHotEncoding 方法转换了训练和测试数据集。但是,转换后的结果具有不同的类型形状。所以不可能应用于逻辑回归等其他算法。
如何根据训练数据集的形状重塑测试数据?
最好的关于,克里斯
scikit-learn - Scikit-learn中Logistic回归的编码方法
我正在尝试使用逻辑回归来使用 Scikit-learn 工具做一些预测任务。
她是我的任务的两个示例功能:
特征1(男人,女人,不知道) ---分类变量
特征2(点击次数) ---连续变量
当我将数据输入逻辑回归时,我不确定如何对特征进行编码。
我应该使用1, 2 和 3来表示分类变量man, woman 和 unknow,还是在使用 Scikit 时使用(1, 0, 0), (0, 1, 0), (0, 0, 1)来表示它们-learn的逻辑回归?那么连续变量呢?