问题标签 [dummy-variable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sparse-matrix - Creating dummy variable in Scilab
I need to do the following:
Could anyone tell me how to create a dummy variable in Scilab. I am looking for a command equivalent to the dummy var in Matlab.
python - 熊猫:得到傻瓜
我有以下数据框:
我想为 column 中的值创建虚拟变量type
。大约有 15 个。我试过这个:
pd.get_dummies(df['type'])
它返回这个:
我想要的是为每个唯一值设置一个虚拟变量列Type
r - 如何创建表格显示 r 中所有虚拟变量的频率
我是 R 的菜鸟。我想创建一个所有虚拟变量的频率表,我有这样的数据
我想看看每个变量的总频率如何
我只知道使用 table() ,但我一次只能做一个变量。我有很多时间严重的虚拟变量,我想看看它们的趋势。
非常感谢特伦斯的帮助
r - lm回归和大列表中有很多变量
我的任务是对虚拟变量进行一些研究。这是一个R代码:
问题是在最后一行我得到:
我认为问题在于koeficientai1
列表很大。但是后来我尝试了另一个只有 5 个变量的 lm 回归,代码正在运行,我得到了简单的数据框。
r - 如果满足多个条件中的任何一个,则创建一个虚拟对象
如果某项行动发生在首都并且我的数据集包含 34 个国家/地区,我想创建一个假人。此外,有时可能会出现单词位于较大字符串中的情况(例如“Berlin, Germany, DE”)。
假设该列如下所示:
我希望 Dummy 产生以下输出:
关于我该怎么做的任何想法?
我已经尝试了以下方法,我希望这至少适用于仅在列中出现首都名称但即使这样也没有成功(为简单起见将其缩短)的情况:
David Arenburg 提出的问题的解决方案:
r - 使用零膨胀模型估计所有因子水平的 SE
我有一个相当复杂的 ZINB 模型。我试图复制我正在尝试做的基本结构:
该模型的主要目标是查看 fac1 在四个级别上的影响。其他变量只是采样过程的产物。
这是输出:
我已经查阅了论文和统计书籍和论坛,但我仍然不确定如何呈现这些信息。我真正想要的是一个条形图,显示 Y 轴上的效果和 X 上的 4 个级别。
如果我理解正确,fac1 的 A 级当前设置为 0,是我的参考级别(如果我在这里错了,请纠正我)。因此,我可以绘制 4 个级别(包括 A 级为零)的图。这似乎并不理想。我真的很想在所有级别都有 95% 的 CI。
我也可以使用 predict 函数,但是 predict.zeroinfl 没有给出错误估计,我不确定如何解释偏移量的影响。
类似的论文只是将原始数据的箱线图放在预测的箱线图旁边并进行比较。我觉得我应该可以做得更好。
下面是创建预测值的代码和绘图:
引导是要走的路吗?我已经尝试过这个并且遇到了各种各样的麻烦,因为我不确定是否有必要。
提前谢谢你,如果我在做一个愚蠢的疏忽/假设,请放轻松。我还在学习,但这些统计数据感觉有点遥不可及。
python - get_dummies (Pandas) 和 OneHotEncoder (Scikit-learn) 之间的优缺点是什么?
我正在学习将分类变量转换为机器学习分类器的数字的不同方法。我遇到了这个pd.get_dummies
方法和sklearn.preprocessing.OneHotEncoder()
我想看看它们在性能和使用方面有何不同。
OneHotEncoder()
我在https://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/上找到了有关如何使用的教程文档对此sklearn
功能没有太大帮助。我有一种感觉我做得不对……但是
pd.dummies
有人可以解释使用over的优缺点,sklearn.preprocessing.OneHotEncoder()
反之亦然吗?我知道这OneHotEncoder()
为您提供了一个稀疏矩阵,但除此之外,我不确定它是如何使用的以及该pandas
方法有什么好处。我使用它效率低下吗?
r - 虚拟变量作为没有截距的斜率移位器
这是我第一次在这里问。
我无法仅生成斜率虚拟变量(没有截距虚拟变量)。但是,如果我将虚拟变量乘以如下所示的自变量,则表示斜率虚拟和截距虚拟结果。
我只想合并斜率假人并排除截距假人。
我会感谢你的帮助。最好的,yjkim
python - 如何在 Python 中创建一个条件低于或高于中位数的虚拟变量?
如何在 Python 中创建二进制虚拟变量,该变量取0
一个人的工资低于平均工资水平并设置为1
其他值的值?当工资高于或低于时,我不明白如何做到这一点。
我试过这个
但是没有输出。
在此之前我试过这个:
得到了这个