问题标签 [one-hot-encoding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
eval - Tensorflow:一种热编码
以下代码工作正常,但使用 eval() 我认为效率低下。有没有更好的方法来实现同样的目标?
输出
python - 如何为 DNA 序列生成一种热编码?
我想为一组 DNA 序列生成一个热编码。例如,序列 ACGTCCA 可以以转置方式表示如下。但是下面的代码将以水平方式生成一种热编码,我更喜欢垂直形式的编码。谁能帮我?
示例代码:
但是,代码给了我输出:
预期输出:
tensorflow - 添加一个热编码会在 Tensorflow 中以前工作的代码中引发错误
如果我在这里在 logits 上引入一种热编码,程序稍后会给出错误,尽管两者都返回相同的维度。如果我注释掉这一行,程序不会给出任何错误。
其余代码:
---> 23 毕业生,norm = tf.clip_by_global_norm(tf.gradients(cost,tvars),5)
ValueError:将参数 'values' 列出到 'Pack' Op,长度 0 比最小长度 1 短。
python - How to create dummy variable and then aggregate using scikit-learn?
I know it can be easily realized using the package pandas, but because it is too sparse and large (170,000 x 5000), and at the end I need to use sklearn to deal with the data again, I'm wondering if there is a way to do with sklearn. I tried the one hot encoder, but got stuck to associate dummies with the 'id'.
Update:
Now I'm here, and the 'id' is lost, how to do aggregation then?
python - 字符串分类特征的一种热编码
我正在尝试对一个简单的数据集执行一次热编码。
使用 Scikit-Learn 预处理这些数据的最佳方法是什么?
乍一看,你会看 Scikit-Learn 的OneHotEncoder。但是一个热门的编码器不支持字符串作为特征;它只离散整数。
因此,您将使用LabelEncoder,它将字符串编码为整数。但是随后您必须将标签编码器应用到每一列并存储这些标签编码器中的每一个(以及应用它们的列)。这感觉非常笨拙。
那么,在 Scikit-Learn 中最好的方法是什么?
请不要建议pandas.get_dummies。这就是我现在通常使用的一种热编码。但是,它的局限性在于您无法单独编码您的训练/测试集。
python - 如何对每列具有多个值的特征进行编码?需要 MultiDictVectorizer?
我正在对 sklearn 中的一些功能进行矢量化处理,但遇到了问题。如果您的数据可以被编码为每个项目的一个字典键,则 DictVectorizer 效果很好。如果您的项目可以具有同一列的两个或多个值怎么办?例如, DictVectorizer 在这样的项目上工作正常:
但是像这样的东西,每列有多个值呢?
one-hot-encoding 的策略仍然可以应用,你只需要两个 a 列…… a=b 和 a=c。据我所知,不存在这样的矢量化器!在这种情况下应该怎么做?我需要创建自己的 MultiDictVectorizer 吗?
在发布之前,我在这里的一篇博文中写过这个。
python - 使用 OneHot Encoder 将一列分成四列
在 Python 中,假设我有一个名为 size 的数据框列,如下所示:
字母 D 到 G 代表不同的尺寸,例如,从 Small 到 X-Large。我能做的是用数字表示它们,如下所示:
但是,由于这不是连续数据,这可能会导致我将来进行的其他分析出现问题。因此,我的另一个想法是将其分成 4 列,其中一个实例的大小为 1,否则为 0。它应该如下所示:
我听说过 Python 中称为 OneHotEncoder 的东西,它对这类场景很有用。我将如何有效地使用它来解决这个问题,或者,我还有什么其他方法可以解决这个问题?
python-2.7 - 一种热编码为 keras 中的不同单词提供相同的数字
为什么我对不同的词得到相同的结果?