问题标签 [dummy-variable]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
543 浏览

r - 一 复变量的热编码

我有一个数据集,其中我的所有数据都是分类的,我想使用一种热编码进行进一步分析。

我想解决的主要问题:

  • 一些单元格在一个单元格中包含许多文本(下面将举例说明)。
  • 一些数值需要更改为因子以进行进一步处理。

具有 3 个标题的数据年龄、信息和目标

我想为上面显示的所有这些变量创建一个热编码,所以它看起来像下面这样:

我检查过的一些关于 SO 的问题是thisthis

0 投票
1 回答
197 浏览

sparse-matrix - Creating dummy variable in Scilab

I need to do the following:

Could anyone tell me how to create a dummy variable in Scilab. I am looking for a command equivalent to the dummy var in Matlab.

0 投票
3 回答
105236 浏览

python - 熊猫:得到傻瓜

我有以下数据框:

我想为 column 中的值创建虚拟变量type。大约有 15 个。我试过这个:

pd.get_dummies(df['type'])

它返回这个:

我想要的是为每个唯一值设置一个虚拟变量列Type

0 投票
2 回答
1168 浏览

r - 如何创建表格显示 r 中所有虚拟变量的频率

我是 R 的菜鸟。我想创建一个所有虚拟变量的频率表,我有这样的数据

我想看看每个变量的总频率如何

我只知道使用 table() ,但我一次只能做一个变量。我有很多时间严重的虚拟变量,我想看看它们的趋势。

非常感谢特伦斯的帮助

0 投票
1 回答
127 浏览

r - lm回归和大列表中有很多变量

我的任务是对虚拟变量进行一些研究。这是一个R代码:

问题是在最后一行我得到:

我认为问题在于koeficientai1列表很大。但是后来我尝试了另一个只有 5 个变量的 lm 回归,代码正在运行,我得到了简单的数据框。

0 投票
1 回答
125 浏览

r - 如果满足多个条件中的任何一个,则创建一个虚拟对象

如果某项行动发生在首都并且我的数据集包含 34 个国家/地区,我想创建一个假人。此外,有时可能会出现单词位于较大字符串中的情况(例如“Berlin, Germany, DE”)。

假设该列如下所示:

我希望 Dummy 产生以下输出:

关于我该怎么做的任何想法?

我已经尝试了以下方法,我希望这至少适用于仅在列中出现首都名称但即使这样也没有成功(为简单起见将其缩短)的情况:

David Arenburg 提出的问题的解决方案:

0 投票
1 回答
644 浏览

r - 使用零膨胀模型估计所有因子水平的 SE

我有一个相当复杂的 ZINB 模型。我试图复制我正在尝试做的基本结构:

该模型的主要目标是查看 fac1 在四个级别上的影响。其他变量只是采样过程的产物。

这是输出:

我已经查阅了论文和统计书籍和论坛,但我仍然不确定如何呈现这些信息。我真正想要的是一个条形图,显示 Y 轴上的效果和 X 上的 4 个级别。

如果我理解正确,fac1 的 A 级当前设置为 0,是我的参考级别(如果我在这里错了,请纠正我)。因此,我可以绘制 4 个级别(包括 A 级为零)的图。这似乎并不理想。我真的很想在所有级别都有 95% 的 CI。

我也可以使用 predict 函数,但是 predict.zeroinfl 没有给出错误估计,我不确定如何解释偏移量的影响。

类似的论文只是将原始数据的箱线图放在预测的箱线图旁边并进行比较。我觉得我应该可以做得更好。

下面是创建预测值的代码和绘图:

预测图

引导是要走的路吗?我已经尝试过这个并且遇到了各种各样的麻烦,因为我不确定是否有必要。

提前谢谢你,如果我在做一个愚蠢的疏忽/假设,请放轻松。我还在学习,但这些统计数据感觉有点遥不可及。

0 投票
4 回答
62404 浏览

python - get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么?

我正在学习将分类变量转换为机器学习分类器的数字的不同方法。我遇到了这个pd.get_dummies方法和sklearn.preprocessing.OneHotEncoder()我想看看它们在性能和使用方面有何不同。

OneHotEncoder()我在https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/上找到了有关如何使用的教程文档对此sklearn功能没有太大帮助。我有一种感觉我做得不对……但是

pd.dummies有人可以解释使用over的优缺点,sklearn.preprocessing.OneHotEncoder()反之亦然吗?我知道这OneHotEncoder()为您提供了一个稀疏矩阵,但除此之外,我不确定它是如何使用的以及该pandas方法有什么好处。我使用它效率低下吗?

0 投票
2 回答
746 浏览

r - 虚拟变量作为没有截距的斜率移位器

这是我第一次在这里问。

我无法仅生成斜率虚拟变量(没有截距虚拟变量)。但是,如果我将虚拟变量乘以如下所示的自变量,则表示斜率虚拟和截距虚拟结果。

我只想合并斜率假人并排除截距假人。

我会感谢你的帮助。最好的,yjkim

0 投票
4 回答
9761 浏览

python - 如何在 Python 中创建一个条件低于或高于中位数的虚拟变量?

如何在 Python 中创建二进制虚拟变量,该变量取0一个人的工资低于平均工资水平并设置为1其他值的值?当工资高于或低于时,我不明白如何做到这一点。

我试过这个

但是没有输出。

在此之前我试过这个:

得到了这个